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Wellenform-Mischungsverfaliren fur System 
zur Text-zu-Sprache Umsetziing 

Die vorliegende Erfindung betrif ft Systeme zur glatten Ver- 
kettung bzw. Kettung von guasi-periodischen Wellenformen, 
wie zum Beispiel kodierte Diphon-Auf zeichnungen, die ver- 
wendet werden beim Ubersetzen bzw. Umsetzen von Text in ei- 
nem Computer system zu synthetisierter Sprache bzw. zu syn- 
thetischer Sprachausgabe . 

In Text-zu-Sprach-Umwandlungssystemen wird ein in einem 
Computer gespeicherter Text ubersetzt in synthetisierte 
Sprache, Wie es erkannt wird, konnte diese Art von System 
weitlaufig angewendet werden, wenn es sich kostengunstig 
bereitstellen liefie. Beispielhaft konnte ein Text-zu- 
Sprach- System verwendet werden zum entfemten Abfragen 
elektronischer Nachrichten uber eine Telefonleitung, indem 
der Computer, welcher die elektronische Nachricht gespei- 
chert hat, veranlaSt wird, Sprache zu synthetisieren, die 
die elektronische Nachricht represent iert bzw. wiedergibt. 
Ferner konnten solche System verwendet werden, um Personen 
Texte vorzulesen, die sehbehindert sind. In dera Textverar- 
beitungsumf eld konnten Text - zu-Sprach- Systeme verwendet 
werden als Unterstutzung beim Gegenlesen eines umfangrei- 
chen Dokumentes. 

Systeme gemaS dem Stand der Technik, die relativ kostengun- 
stig sind, verfiigen jedoch uber eine Sprachqualitat , die 
relativ schlecht ist, so dalS diese unbequem zu verwenden 



Oder schwierig zu verstehen sind. Um eine gute Sprachquali- 
tat zu erhalten, erfordem Sprachsynthetisiersysteme spezi- 
elle Hardware, die sehr teuer ist, und/oder eine grofie Men- 
ge an Speicherraum in dem Computer system, welches den Ton 
bzw. die Laute erzeugt . 

In Text-zu-Sprach-Systemen untersucht ein Algorithmus eine 
Eingangstext string bzw. -folge und ubersetzt die Worte in 
der Text folge in eine Folge von Diphonen, welche in synthe- 
tisierte Sprache umgesetzt werden mussen. Text-zu-Sprach- 
Systeme analysieren auch den Text basierend auf dem Worttyp 
und dem Kontext, um eine Betonungssteuerung zu generieren, 
die verwendet wird zum Einstellen der Dauer der T6ne bzw. 
Laute sowie der Tonh6he bzw. dem Pitch (engl. pitch) der in 
der Sprache involvierten Laute. 

Diphone bestehen aus einer Spracheinheit , die gebildet ist 
aus dem Ubergang zwischen einem Laut oder Phonem xind einem 
benachbarten Laut oder Phonem. Diphone beginnen ublicher- 
weise an der Mitte eines Phonems und enden an der Mitte ei- 
nes benachbarten Phonems. Dies erhalt bzw. konserviert den 
Ubergang zwischen den Lauten relativ gut. 

Text- zu-Sprach-Syst erne, die auf amerikanischem Englisch ba- 
sieren, verwenden abhangig von der spezifischen Implemen- 
tierung etwa 50 unterschiedliche Laute, welche Phone ge- 
nannt werden. Von diesen 50 unterschiedlichen Lauten ver- 
wendet die Normal sprache etwa 1800 Diphone von den mogli- 
chen 2500 Phonpaaren. Demzufolge mufi ein Text-zu-Sprach- 
System in der Lage sein, 1800 Diphone zu reproduzieren bzw. 
wiederzugeben. Um die Sprachdaten unmittelbar fur jedes 
Diphon speichern zu konnen, ware ein enormes Ausmafi an 
Speicher erf orderlich. Demzufolge wurden Kompressionstech- 



niken entwickelt, um das AusmaS. an erf orderlichem Speicher 
zum Speichern der Diphone zu begrenzen. . 

Text -zti-Sprach-Syst erne gemaJS dem Stand der Technik sind un- 
ter anderem beschrieben in dem US-Patent Nr. 8,452,168 mit 
dem Titei COMPRESSION OF STORED WAVE FORMS FOR ARTIFICIAL 
SPEECH, erfunden von Sprague; und dem US -Patent Nr. 
4,692,941 mit dem Titel REAL-TIME TEXT -TO -SPEECH CONVERSION 
SYSTEM, erfunden von Jacks, et al . Weiterer technischer 
Hintergrund bezuglich Sprachsynthese kann gefunden werden 
in dem US-Patent Nr. 4,384,169 rait dem Titel METHOD AND 
APPARATUS FOR SPEECH SYNTHESIZING, erfunden von Mozer, et 
al. 

Zwei verkettete Diphone verfugen uber einen End- bzw. En- 
dungsrahmen und einen Anf angsrahmen. Der Endungsrahmen des 
linken Diphons muS vermischt bzw. abgemischt werden mit dem 
Anf angsrahmen des rechten Diphons, ohne dafi horbare Diskon- 
tinuitaten oder Klicks bzw. Laute erzeugt werden. Da die 
rechte Grenze bzw. der rechte Rand des ersten Diphons und 
der linke Rand des zweiten Diphons in den meisten Situatio- 
nen demselben Phonem entsprechen, wird angenommen, daS die- 
se in einem Verkettungspunkt ahnlich aussehen. Da jedoch 
die zwei Diphonkodierungen aus unterschiedlichen Kontexten 
extrahiert sind, werden diese nicht identisch aussehen. 
Demzufolge versuchten Vermischungs- bzw, Abmischtechniken 
gemaS dem Stand der Technik, verkettete Wellenformen an dem 
Ende und dem Anfang von linkem bzw. rechtem Rahmen jeweils 
zu mischen. Da Ende und Anfang von Rahmen nicht gut aufein- 
ander abgestimmt sein konnen, resultiert ein Mischrauschen 
bzw. ein Mischgerausch. Eine Kontinuitat des Tones zwischen 
benachbarten Diphonen ist demzufolge gestort . 



Trotz der bisherigen Aktivitaten in diesem Umfeld finden 
die verwendung von Text-zu-Sprach-Systemen keine weitlaufi- 
ge Akzeptanz. Es ist daher wunschensv/ert , ein lediglich auf 
Software beruhendes Text- zu-Sprach- System bereitzustellen, 
welches auf eine breite Vielzahl von Mikrocomputerplattf or- 
men portierbar ist und hohe Sprachqualitat bereitstellt und 
in Echtzeit an solchen Plattformen betrieben werden kann. 

Gemafi einem ersten Gesichtspunkt stellt die vorliegende Er- 
f indung eine Vorrichtung bereit zur Verkettung eines ersten 
digitalen Rahmens von N Proben rait jeweiligen Betragen bzw. 
Amplituden (Magnituden, engl . magnitudes), welche eine er- 
ste quasi-periodische Wellenform darstellen, mit einem 
zweiten digitalen Rahmen von M Proben mit jeweiligen Betra- 
gen, welche eine zweite quasi -peribdische Wellenform dar- 
stellen, urafassend: 

einen Puffer zum Spfeichem der Proben des ersten und zwei- 
ten digitalen Rahmens; 

Mittel, welche mit dem Puf f erspeicher gekoppelt sind,' zur 
Bestimmung eines Mischungspunktes fur den ersten und den 
zweiten digitalen Rahmen, ansprechend auf die Betrage der 
Proben in den ersten und zweiten digitalen Rahmen bzw. in 
dem ersten und dem zweiten digitalen Rahmen; 

Vermischungsmittel, welche mit dem Puf f erspeicher und den 
Mitteln zur Bestimmung gekoppelt sind, urn eine digitale Se- 
quenz zu berechnen, welche eine Verkettung der ersten und 
zweiten quasi -peri odischen Wellenformen darstellt, anspre- 
chend auf den ersten Rahmen, den zweiten Rahmen und den 
Vermischungspunkt . 



Die Technik ist ferner anwendbar auf die Verkettung zweier 
beliebiger quasi-periodischer Wellenf ormen, die ublicher- 
weise angetroffen werden in der Ton- bzw. Lautsynthese oder 
in Sprache, Musik, Toneffekten oder dergleichen. 

Gemafi einer Ausf uhrungsf orm der vorliegenden Erf indung wird 
das System betrieben, indem zuerst ein erweiterter Rahmen, 
ansprechend bzw, als Antwort auf den ersten digitalen Rah- 
tnen, berechnet wird, wonach eine Teilmenge bzw. ein Unter- 
satz des erweiterten Rahmens gesucht bzw. gefunden wird, 
welcher relativ gut auf den zweiten digitalen Rahraen paSt 
bzw. abgestimmt ist. Der optimale Vermischungspunkt wird 
anschlieSend def iniert als eine Probe in der Teilmenge des 
erweiterten Rahmens. Die Teilmenge des erweiterten Rahmens, 
welche relativ gut auf den zweiten digitalen Rahmen pafit, 
wird bestinimt unter Verwendung einer minimalen Differenz- 
funktion des mittleren Betrages bezuglich der Proben in der 
Teilmenge. Der Vermischungspunkt umfaSt in diesem Zusammen- 
hang die erste Probe der Teilmenge. Um die verkettete Wel- 
lenform zu erzeugen, wird die Teilmenge des erweiterten 
Rahmens mit dem zweiten Digitalrahmen kombiniert und mit 
dem Anfangs segment des erweiterten Rahmens verkettet, um 
die verkette Wellenform zu erzeugen. 

Die verkettete Folge wird anschliefiend in eine Analogform 
Oder eine andere physikalische Darstellung der gemischten 
Wellenformen umgewandelt, 

GemaS einem weiteren Gesichtspunkt stellt die vorliegende 
Erf indung eine Vorrichtung zum Synthetisieren von Sprache, 
ansprechend auf einen Text, bereit, umfassend: 



Mittel zur Ubersetzung bzw. Umsetzung von Text in eine Se- 
quenz von Ton- bzw. Lautgsegementcodierungen; 

Mittel, welche ansprechend sind auf die Lautsegmentcodie- . 
rungen in der Sequenz, um die Sequenz der Laut segment codie- 
rungen zu decodieren zur Herstellung von Strings von digi- 
talen Rahmen einer Anzahl von Proben, welche Tone bzw. Lau- 
te f\ir jeweilige Ton- bzw. Lautsegmentcodierungen in der 
Sequenz darstellen, wobei die identif izierten Strings der 
digitalen Rahmen Anfange und Endungen aufweisen; 

Mittel zur Verkettung eines ersten digitalen Rahmens, an 
dem Ende eines identif izierten Strings von digitalen Rahmen 
einer bestimmten Lautsegmentcodierung in den Sequenzen, mit 
einem zweiten digitalen Rahmen an dem Anfang eines identi- 
f izierten Strings von digitalen Rahmen einer benachbarten 
Lautsegmentcodierung in der Sequenz, um eine Sprachdatense- 
quenz zu erzeugen, enthaltend 

einen Puf f erspeicher zum Speichern der Proben von ersten 
und zweiten digitalen Rahmen; 

Mittel, welche mit dem Puf f erspeicher gekoppelt sind, um 
einen Vermischungspunkt fur die ersten und zweiten digita- 
len Rahmen zu bestimmen, und zwar ansprechend auf Betrage 
der Proben in den ersten und zweiten digitalen Rahmen; vnd 

Vermischungsmittel, welche mit dem Puf f erspeicher und den 
Mitteln zur Bestimmung gekoppelt sind, um eine digitale Se- 
quenz zu berechnen, welche eine Verkettung der ersten und 
zweiten Lautsegmente darstellt, und zwar ansprechend auf 
den ersten Rahmen, den zweiten Rahmen und den Vermischungs- 
punkt; und 



einen Audiowandler , der mit den Mitteln. zur Verkettung ge- 
koppelt ist, urn ansprechend auf die Sprachdatensequenz 
synthetische Sprache zu generieren. 

In einer Ausfuhrungsf orm der Erfindung enthalten die Be- 
triebsmittel bzw. Ressourcen, welche den optiraalen Vermi- 
schungspunkt bestimmen, Berechnungsressourcen, welche einen 
erweiterten Rahmen berechnen, umfassend eine diskontinuita- 
tenglattende Verkettung des ersten Digitalrahmens mit einer 
Replica bzw. Wiederholung des ersten Digitalrahmens. Weite- 
re Ressourcen finden eine Teilmenge des erweiterten Rahmens 
mit einer minimalen mittlere Betragsdif f erenz zwischen den 
Proben in der Teilmenge und in dem zweiten Digitalrahmen, 
und definieren den optimalen Vermischungspunkt als die er- 
ste Probe in dieser Teilmenge. Die Mischungsressourcen ent- 
halten Software oder andere Berechnungsressourcen, welche 
einen ersten Satz an Proben bereitstellen, abgeleitet von 
dem ersten Digitalrahmen, wobei der Vermischungspunkt als 
ein erstes Segment der Digitalsequenz vorliegt bzw. ange- 
nommen wird. Anschliefiend wird der zweite digitale Rahmen 
mit der Teilmenge des erweiterten Rahmens kombiniert, mit 
Hervorhebung der Teilmenge des erweiterten Rahmens in einer 
Anfangsprobe und Hervorhebung des zweiten digitalen Rahmens 
in einer Endprobe, urn ein zweites Segment der Digitalse- 
quenz zu erzeugen. Das erste Segment und das zweite Segment 
werden kombiniert, urn eine Sprachdatensequenz darzustellen. 

GemaS noch weiteren bevorzugten Ausfuhrungsf ormen der Er- 
findung umfafit die Text-zu-Sprach-Vorrichtung ein Bearbei- 
tungsmodul, welches ansprechend auf den eingegebenen bzw. 
Eingangstext die Tonhohe bzw. den Pitch und die Dauer der 
identif izierten Strings von Digitalrahmen in der Sprachda- 



tensequenz einstellt. Ferner basiert der Dekoder auf einer 
Vektorquantisierungstechnik, welche ausgezeichnete Kompres- 
sionsqualitat bereitstellt , wobei sehr geringe Dekodierres- 
Bourcen erforderlich sind, 

Weitere Gesichtspunkte und Vorteile der vorliegenden Erfin- 
dung werden ersichtlich beim Lesen der Figuren, der detail- 
lierten Beschreibung von bevorzugten Ausf uhrungsf ormen, 
welche lediglich beispielhaft erfolgt, sowie der beiliegen- 
den Anspruche. 

Fig. 1 ist ein Blockdiagrainm einer generischen Hardware- 
pi at t form, die ein Text -zu-Sprach- System gemafi 
der vorliegenden Erfindung enthalt. 

Fig. 2 ist ein FluSdiagramm, welches eine Basis-Text- zu- 
Sprach-Routine bzw. -Programm der vorliegenden 
Erfindung darstellt. 

Fig. 3 stellt das Format von Diphonauf zeichnungen gemafi 
einer Ausf uhrungsf orm der vorliegenden Erfindxing 
dar . 

Fig. 4 ist ein FluSdiagramm, welches eine Codiereinrich- 
tung fur Sprachdaten gemaS der vorliegenden Er- 
findung darstellt. 

Fig. 5 ist ein Graph, welcher diskutiert wird unter Be- 
zugnahme auf die Abschatzung von Pitchf ilterpara- 
metem in der in Fig. 4 gezeigten Codiereinrich- 
tung. 



Fig. 6 ist ein FluSdiagramm, welches die Vollsuche dar- 
stellt, die in der Codiereinrichtung von Fig. 4 
verwendet wird. 

Fig, 7 ist ein Flufidiagrarnm, welches einen Decoder fur 
Sprachdaten gemaS der vorliegenden Erfindung dar- 
stellt. 

Fig. 8 ist ein Flufidiagramm, welches eine Technik zum 
Mischen bzw. Abmischen des Anfangs und des Bndes 
von benachbarten Diphonauf zeichnungen darstellt. 

Fig, 9 besteht aus einem Satz von Graphen, auf die Bezug 
genommen wird bei der Erlauterixng der Vermi- 
schungs- bzw. Abmischtechnik von Fig. 8. 

Fig. 10 ist ein Graph, welcher ein typisches Diagramm von 
Pitch gegen die Zeit fOr eine Sequenz von Rahmen 
von Sprachdaten darstellt. 

Fig. 11 ist ein FluSdiagramm, welches eine Technik dar- 
stellt zur VergroSerung bzw. Anhebxing der 
Pitchperiode fur einen bestimmten Rahmen. 

Fig. 12 ist ein Satz von Graphen, auf die Bezug genommen 
wird bei der Erlauterung der in Fig. 11 gezeigten 
Technik . 



Fig. 13 



ist ein FluSdiagramm, welches eine Technik zum 
Absenken bzw. Verringern der Pitchzeit eines be- 
stimmten Rahmens darstellt. 



Fig. 14 ist ein Satz von Graphen, auf die bei der Erlau- 
terung der Technik von Fig.. 13 Bezug genommen 
wird. 

Fig. 15 ist ein Flufidiagramm, welches eine Technik dar- 
stellt zum Einfugen einer Pitchperiode zwischen 
zwei Rahmen in einer Sequenz. 

Fig. 16 ist ein Satz von Kurvenverlauf en bzw. Graphen, 
auf die Bezug genommen wird bei der Erlauterung 
der Technik von Fig. 15. 

Fig. 17 ist ein FluSdiagramm, welches eine Technik dar- 
stellt zum Entfernen bzw. Loschen einer Pitchpe- 
riode in einer Sequenz von Rahmen. 

Fig. 18 ist ein Satz von Graphen, auf die bei der Erlau- 
terung der Technik von Fig. 17 Bezug genommen 
wird. 

Einer detaillierte Beschreibung der bevorzugten Ausfuh- 
rungsformen der Erfindung wird angegeben unter Bezugnahme 
auf die Figuren. Fig. 1 und 2 stellen eine Ubersicht eines 
Systemes bereit, welches die vorliegende Erfindung beinhal- 
tet. Fig. 3 stellt die grundsatzliche Weise dar, in welcher 
Diphonaufzeichnungen gemSfi der vorliegenden Erfindving ge- 
speichert werden. Fig. 4 bis 6 stellen Codierverf ahren dar, 
die auf einer Vektorquantisierung gemaS der vorliegenden 
Erfindung basieren. Fig. 7 stellt einen Decodieralgorithmus 
gemafi der vorliegenden Erfindung dar. 



Fig. 8 und 9 stellen eine bevorzugte Technik zum Mischen 
von Anfang und Ende von benachbarten Diphonaufzeichnungen 



dar. Fig. 10 bis 18 stellen die Techniken zur Steuerung des 
Pitches und der Dauer von Tonen bzw. Lauten in dem Text-zu- 
Sprach- System dar. 

I. Systetnuberblick (Pig. 1 bis 3) 

Fig. 1 stellt eine Basismikrocomputerplattf orrti dar, die ein 
Text -zu-Sprach- System beinhaltet , welches erf indungsgemafi 
auf Vektorquantisierung beruht. Die Plattform umfaSt eine 
Hauptprozessoreinheit 10, die mit einem Hostsystem 11 ge- 
koppelt ist. Eine Tastatur 12 oder eine andere Texteingabe- 
einrichtung ist in dem System bereitgestellt . Ferner ist 
ein Anzeigesystem 13 mit dem Hostsystembus gekoppelt. Das 
Hostsystem enthalt ebenfalls ein nicht-f luchtiges Speicher- 
system, wie zum Beispiel ein Plattenlaufwerk 14. Femer 
enthalt das System einen Hostspeicher 15. Der Hostspeicher 
enthalt Text -zu-Sprach- (TTS) -Codes, einschliefilich codier- 
ter Sprachtabellen, Puffer und anderer Hostspeicher. Der 
Text -zu-Sprach- Code wird verwendet, um Sprachdaten zu gene- 
rieren, die einem Audio -Ausgangsmodul 16 zuzufuhren sind, 
welches einen Lautsprecher 17 enthalt. Der Code enthalt 
ebenfalls einen optimalen Vermis chungspunkt sowie ein 
Diphonverkettungsprogramm bzw . eine Optimal -Mischpunkt - 
Diphonverkettungsroutine, wie unter Bezugnahme auf die Fig. 
8 und 9 im Detail beschrieben wird. 

GemaS der vorliegenden Erfindung enthalten die codierten 
Sprachtabellen ein TTS-Worterbuch, welches verwendet wird 
zum Ubersetzen von Text in einen String von Diphonen. Fer- 
ner ist ebenfalls eine Diphontabelle enthalten, die die 
Diphone in identif izierte Strings von Quantisierungsvekto- 
ren ubersetzt. Eine Quantisierungsvektortabelle wird ver- 
wendet, um die Lautsequenzcodes der Diphontabelle in die 



Sprachdaten zur Audioausgabe zu Cibersetzen. Das System kann 
auch eine Vektorquantisierungstabelle zur Codierung enthal- 
ten, welche bei Bedarf in den Hostspeicher 15 geladen wird. 

Die in Fig. 1 dargestellte Plattform reprasentiert ein be- 
liebiges generisches Mikrocomputersystem, einschliefilich 
eines auf Macintosh basierenden Systems, eines auf DOS ba- 
sierenden Systems, eines auf UNIX basierenden Systems oder 
anderer Typen von Mikrocomputem. Der Text -zu-Sprach- Code 
und die codierten Sprachtabellen gemafi der vorliegenden Er- 
findung zur Decodierung nehmen eine relativ geringe Menge 
an Hostspeicher 15 ein. Beispielhaft kann eih erf indungsge- 
maSes Text-zu-Sprach-Decodiersystem implementiert werden, 
welches weniger als 640 Kilobyte an Hauptspeicher besetzt, 
wobei dennoch hochqualitative naturlich klingende syntheti- 
sierte Sprache erzeugt wird. 

Der durch den Text-zu-Sprach-Code ausgefuhrte Basisalgo- 
rithmus ist in Fig. 2 dargestellt. Das System empfangt zu- 
erst den eingegebenen Text bzw. Eingabetext (Block 20) . Der 
Eingabetext wird ubersetzt in Diphonstrings unter Verwen- 
d\mg des TTS-Worterbuches bzw. Dictionary (Block 21) . 
Gleichzeitig wird der Eingabetext analysiert bzw. unter- 
sucht, urn Betonungssteuerdaten zu erzeugen, um den Pitch 
und die Dauer der die Sprache bildenden Diphone zu steuem 
(Block 22) . 

Nachdem der Text in Diphonstrings ubersetzt ist, werden die 
Diphonstrings dekomprimiert , um vektorquantisierte Daten- 
rahmen zu erzeugen (Block 23) . Nachdem die vektorquanti- 
sierten (VQ) Datenrahmen gebildet sind, werden die Anfange 
und Endungen von benachbarten Diphonen vermischt bzw. abge- 
mischt. um jegliche DiskontinuitSten zu glatten (Block 24) . 



Anschliefiend v/erden die Dauer und der Pitch der Diphon-VQ- 
Datenrahmen eingestellt, und zwar ansprechend auf die Beto- 
nungssteuerdaten (Block 25 und 2'6) . Schliefilich werden die 
Sprachdaten dem Audioausgabesystem zur Echtzeiterzeugung 
zugefuhrt (Block 27) • Fur Systeme mit ausreichender Verar- 
beitungsleistung kann ein adaptiver Nachfilter angewendet 
werden, urn die Sprachqualitat weiter zu verbesseim. 

Das TTS-Worterbuch kann implementiert werden xinter Verwen- 
dung einer beliebigen von einer Vielzahl von in dier Technik 
bekannten Techniken. GemaS der vorliegenden Erfindung wer- 
den Diphonauf zeichnungen in einem stark komprimierten For- 
mat implementiert, wie es in Fig. 3 dargestellt ist, 

Wie es in Fig. 3 gezeigt ist, sind Auf zeichnungen fur einen 
linken Diphon 30 und eine Aufzeichnung fur einen rechten 
Diphon 31 dargestellt. Die Aufzeichnung fur den linken 
Diphon 30 enthalt einen Zahlwert 32 von der Anzahl NL der 
Pitch- bzw. Auf teilungsperioden in dem Diphon. Des weiteren 
ist ein Zeiger bzw. Pointer 33 enthalten, welcher zu einer 
Tabelle der Lange NL zeigt, die die Zahl LPi fur jede Auf- 
teilungs- bzw. Pitchperiode speichert, wobei i zwischen 0 
und NL-1 der Pitchwerte fur entsprechend komprimierte Rah- 
menauf zeichnungen liegt. Schliefilich ist ein Zeiger 34 ent- 
halten, welcher zu einer Tabelle 36 von ML vektorcjuanti- 
sierten komprimierten Sprachauf zeichnungen zeigt, jeweils 
mit einer festgelegten Satzlange an kodierter RahmengroSe 
bezuglich eines Nominalpitches der codierten Sprache fur 
den linken Diphon. Der Nominalpitch basiert auf der gemit- 
telten Anzahl an Proben fur eine gegebene Pitchperiode fur 
die Sprachdatenbank . 



Eine ahnliche Struktur kann fur den rechten Diphon 31 er- 
kannt werden. Unter Verwendving einer . Vektorquantisieriing 
ist eine Lange der komprimierten Sprachauf zeichnungen sehr 
kurz in Bezug auf die erzeugte Sprachqualitat . 

Das Format der vektorquantisierten Sprachauf zeichnungen 
kann besser verstanden werden unter Bezugnahme auf die Rah- 
mencodierroutine und die Rahmendecodierroutine, wie folgend 
unter Bezugnahme auf die Fig. 4 bis 7 beschrieben. 

TT. Die Knroder/Decode-r- Progra mme bzw. -RoutinexT ( Fjq- 4 

bis 7) 

Die Codierroutine ist in Fig. 4 dargestellt. Der Codierer 
akzeptiert als Eingabe einen Rahmen s„ von Sprachdaten. Bei 
dem bevorzugten System sind die Sprachproben dargestellt 
als 12 Oder 16 Bit auf zwei komplementierte Zahlen, gesam- 
pelt bzw. abgetastet bei 22,252 Hz. Diese Daten werden auf- 
geteilt in nichtuberlappende Rahmen s„ mit einer. Lange N, 
wobei N als die Rahmengrofie bezeichnet wird. Der Wert von N 
ist abhangig von dem Nominalpitch der Sprachdaten. Wenn der 
Nominalpitch der aufgezeichneten Sprache geringer ist als 
165 Proben (oder 135 Hz) wird der Wert von N als 96 ge- 
wahlt. Ansonsten wird eine RahmengroSe von 160 verwendet. 
Der Codierer transf ormiert die N-Punkt Datehsequenz s„ in 
eine Bytefolge bzw. einen Bytestrom von kurzerer LSnge, wo- 
bei diese von der gewunschten Kompressionsrate abhangt. 
Wenn zum Beispiel N=160 und eine sehr hohe Datenkompression 
gewOnscht ist, kann der Ausgangsbytestrom bis zu 12 Acht- 
Bit -Bytes kurz sein. Ein Blockdiagramm der Codiereinrich- 
tung ist in Fig. 4 dargestellt. 



Demzufolge beginnt die Routine mittels Annehmens eines Rah- 
mans (Block. 50) . Urn Niederf requenzrauschen zu f 11 tern 
bzw. zu entfernen, wie zum Beispiel Wechselstrom oder 60 Hz 
Stromleitungsrauschen, und zum Erzeugen offsetfreier 
Sprachdaten, wird das Signal s„ durch einen Hochpassf ilter 
gefuhrt. Eine bif f erenzengleichung, die in einem bevorzug- 
ten System zur Erzielung dieser Aufgabe verwendet wird, ist 
in Gleichung 1 angegeben fur 0<n<N. 

= Sn - s^.i + 0.999 * x^.j^ Gleichung 1 

Der Wert ist das „of f setf reie" Signal. Die Variablen s.^ 
und x.i sind fur jeden Diphon auf Null initialisiert und 
werden anschlieSend aktualisiert unter Verwendung der Be- 
ziehung von Gleichung 2 , 

x.i = Xn und s.i -3^ Gleichung 2 

Dieser Schritt kann als Of f setkompensierung oder Wechsel- 
stromentf ernen bezeichnet werden (Block 51) . 

Um ein teilweises Entkorrelieren der Sprachproben und des 
Quantisierungsrauschens zu erreichen, wird die Sequenz x^ 
durch einen festgelegten bzw. festen Erstordnungslinearpra- 
diktionsf ilter gefuhrt. Die Dif f erenzengleichung, um dies 
zu erreichen, ist in Gleichung 3 angegeben. 

Yn = - 0.875 * x„.i Gleichung 3 

Die lineare Pradiktionsf ilterung gemafi Gleichung 3 erzeugt 
einen Rahmen (Block 52) . Der Filterparameter , welcher in 
Gleichung 3 gleich 0.875 ist, muS verandert werden, . wenn 
eine andere Sprachsample- bzw. probennahmenrate verwendet 



wird. Der Wert von x.^ ist fur jeden Diphon auf Null in- 
itialisiert, wird jedoch in dem Schritt der umgekehrten Li- 
nearpradiktionsfilterung (Block 60) aktualisiert , wie es 
folgend beschrieben wird. 

Es ist moglich, eine Vielzahl von Filtertypen zu verwenden, 
einschliefilich zum Beispiel eines adaptiven bzw. adaptati- 
ven Filters, in welchera die Filterparameter von den zu ko- 
dierenden Diphonen abhangen, oder auch Filter von hoherer 
Ordnung. 

Die Sequenz y„, die durch die Gleichving 3 erzeugt wird, 
wird anschlieSend verwendet, um einen optimalen Pitchwert 
Popt bestiironen, sowie einen zugeordneten VerstSrkungsf ak- 
tor p. Popt wird berechnet unter Verwendung der F\inktionen 
Sxy(P) , Sxx(P)» Syy^^) sowie der Koharenzfunktion Coh(P) , die 
durch die Gleichungen 4,5,6 und 7 definiert ist, wie fol- 
gend dargelegt. 



N-l 



S^(P) 



Gleichung 4 



S„(P) 




Gleichung 5 



Syy(P) 



SpBUFp„-p«*PBUFp«-. 



Gleichung 6 



und 



Coh(P) = s^(P) * s,^(P) / (s^(P) * Syy(P)) 



Gleichung 7 



PBUF ist ein Pitchpuffer der GroSe P^, welcher auf Null 
initialisiert ist und in dem Auf teilungspuf f er- 
Aktualisierblock 59 aktualisiert wird wie folgend beschrie- 
ben. P . ist der Wert von P, fur welchen Coh(P) maocimal und 
s^(P) positiv ist. Der betrachtete Bereich von P ist ab- 
hangig von dem Nominalpitch der zu codierenden Sprache. Der 
Bereich liegt zwischen 96 und 350, wenn die Rahmengrofie 
gleich 96 ist, und liegt zwischen 160 und 414, wenn die 
RahmengroSe gleich 160 ist. P^ ist 350, wenn der Nominal- 
pitch geringer als 160 ist und ist ansonsten gleich 414. 
Der Parameter P^^t kann unter Verwendung von acht Bits dar- 
gestellt werden. 

Die Berechnung von P^pt kann verstanden werden unter Bezug- 
nahme auf Fig. 5. In Fig. 5 ist der Puffer PBUF dargestellt 
durch die Sequenz 100, wobei der Rahmen y„ dargestellt wird 
durch die Sequenz 101. In einem Segment von Sprachdaten, in 
welchem die vorangegangen Rahmen im wesentlichen gleich 
sind zu dem Rahmen werden PBUF und y„ aussehen, wie es 

in Fig. 5 gezeigt ist. Popt wird den Wert an dem Pxinkt 102 
annehmen, an welchem der Vektor 101 so weit wie moglich 
an ein entsprechendes Segment von ahnlicher Lange in dem 
PBUF 100 angepaSt ist. 

Der Pitchf ilterverstarkungsparameter P wird bestimmt unter 
der Verwendung des Ausdruckes von Gleichung 8. 

P = s^(P^t> / Syy(P,p,) Gleichung 8 

P ist diskretisiert bzw. quantisiert auf vier Bits, so dafi 
der quantisierte Wert von p in einem Bereich liegen kann 
von 1/16 bis 1, und zwar bei Schritten von 1/16. 



AnschlieSend ward ein Pitchfilter angewendet (Block 54). 
Die Langzeitkorrelationen in den vorverstarkten bzw. Vbrbe- 
tonten Sprachdaten yy„ werden entfernt unter Verwendung der 
Bezieh\ing von Gleichung 9 . 

i„ = y,.B*PBUF,_^.p^,„ 0 n < N. 

Gleichung 9 

Dies fuhrt zu einer Berechnung eines Restsignalee r^^. 

AnschlieSend wird ein Skalierungsparameter G generiert un- 
ter Verwendung einer Blockverstarkungsschatzroutine (Block 
55) . Urn die Berechnungsgenauigkeit der folgenden Verarbei- 
tungsstufen zu erhohen, wird das Restsignal r^ nachska- 
liert. Der Skalierungsparameter G wird erhalten, indem zu- 
erst der groBte Betrag bzw. Ausschlag des Signales r„ be- 
stimmt und quantisiert wird, unter Verwendung einer 7- 
Pegelquantisiereinrichtung. Der Parameter G kann einen der 
folgenden sieben Werte annehmen: 256, 512, 1024, 2048, 
4096, 8192 und 16384. Die Konsequenz des AuswAhiens dieser 
Quantisierungspegel ist, daS das Nachskalierverf ahren le- 
diglich unter Verwendung von Verschiebeschritten implemen- 
tiert werden kann. 

Anschliefiend schreitet die Routine fort zu der verbleiben- 
den Codierung unter Verwendung eines Vollsuchvektbrquanti- 
siercodes (Block 56) . Um das Restsignal r„ zu codieren, 
wird die n-Punkt-Sequenz r^ aufgeteilt in nichtuberlappende 
Blocke der Lange M, wobei M als „Vektorgr66e^ bez ichnet 
wird. Demzufolge werden M Probenblocke b^^ erzeugt, wobei i 
ein Index von Null bis M-1 bezuglich der Blockzahl ist, und 
wobei j ein Index von Null bis N/M-l bezuglich der Probe 



innerhalb des Blockes ist. Jeder Block kann in der Weise 
definiert werden, wie in Gleichung 10 angegeben. 

= ^Mi ♦ j' (0 <. i < N/M und j < 0 < M) 
Gleichung- 10 

Jeder dieser M Probenblocke b^^ wird in eine Acht-Bit-Zahl 
lanter Verwendung von Vektorquantisierung codiert. Der Wert 
von M ist abhangig von dem gewunschten Kompressionsverhalt- 
nis. Wenn zum Beispiel M gleich 16 ist, wird eine sehr hohe 
Kompression erzielt (d.h. 16 Restproben werden unter Ver- 
wendung von lediglich acht Bits codiert) , Die decodierte 
Sprachcpaalitat kann jedoch als relativ Gerausch- bzw. 
Rauschbelastet wahrgenommen werden, wenn M = 16 ist. Ande- 
rerseits wird mit M = 2 die dekomprimierte Sprachqualitat 
sehr nahe bei jener von nichtkoraprimierter Sprache vorlie- 
gen. Die Lange der komprimierten Sprachauf zeichnungen wird 
jedoch 1 anger sein. Bei der bevorzugten Implement ierung 
kann der Wert M Werte annehmen von 2, 4, 8 und 16. 

Die Vektorquantisierung wird in solch einer Weise durchge- 
fuhrt, wie es in Fig. 6 dargestellt ist, Demzufolge wird 
fur samtliche Blocke bi^ eine Sequenz von Quant isierungs- 
vektoren identif iziert (Block 120) . Anfanglich werden die 
Komponenten des Blockes b^^ durch einen Rauschf ormf ilter 
gefuhrt und gemaS der Gleichung 11 skaliert (Block 121) . 

w^ = 0.875 * w^.^ - 0.5 * Wj.2 + 0.4375 * w^.3 + b^^, 0 < j 
< M; Vij = G * Wj; 

0 < j < M Gleichung 11 

Somit ist Vj^ die j-te Komponente des Vektors v^, wobei die 
Werte w.^, w.j und w,3 die Zustande des Gerausch- bzw. 



Rauschformfilters sind, wobei diese fxir jedes Diphon auf 
Null initialisiert sind. Die Filterkoef f izienten sind aus- 
gewahlt zum Formen des Quantisierrauschspektrums, urn die 
subjektive Qualitat der dekompritnierten Sprache zu verbes- 
sern. Nachdem jeder Vektor codiert und entcodiert Ist, wer- 
den diese Zustande aktualisiert , wie folgend beschrieben 
unter Bezugnahme auf die Blocke 124 bis 126. 

AnschlieSend findet die Routine Zeiger zu der besten Uber- 
einstimmung in einer Vektorquantisiertabelle {Block 122). 
Die Vektorquantisiertabelle 123 besteht aus einer Sequenz 
von Vektoren C, bis C^^s (Block 123) . 

Demzufolge wird der Vektor verglichen mit 256 M- 

Punktvektoren, welche vorberechnet und in der Codetabelle 
123 gespeichert sind. Der Vektor C,„ welcher am nahesten 
zu Vi ist, wird entsprechend der Gleichung 12 bestimmt. Der 
Wert Cp fur p = 0 bis 255 reprasentiert den p-ten Codier- 
vektor aus der Vektorquantieiercodetabelle 123. 

M-1 

min S (Vij - Cp^)' 

p j = b 
Gleichung 12 

Der nachste bzw. vergleichbarste Vektor 0,^ kanii ebenfalls 
effizient bestimmt werden unter Verwendung der Technik nach 
Gleichung 13 . 



• < • Cp fur samtliche p{0<p<255) 
Gleichung 13 



In Gleichung 13 reprasentiert der Wert die Transponierte 
des Vektors v, wobei „^'^ die innere Produkt operation in der 
Ungleichung wiedergibt . 

Die Codiervektoren Cp in Tabelle 123 werden verwendet, urn 
angepaSt zu sein bezuglich des Rauschen-gef ilterten Werts 
Vij. Beim Decodieren wird jedoch eine Decodiervektortabelle 
125 verwendet, welche aus einer Sequenz von Vektoren QVp 
besteht. Die Werte QVp sind zu dem Zweck ausgewahlt, daS 
c[ualitativ hochwertig Ton- bzw. Lautdaten erreicht werden 
unter Verwendung der Vektorquantisiertechnik. Demzufolge 
wird nach dem Auffinden des Vektors 0,^ der Zeiger q ver- 
wendet, urn auf den Vektor QV^^ zuzugreifen. Die decodierten 
Proben, die dem Vektor b^ entsprechen, der bei Schritt 55 
von Fig. 4 erzeugt wurde, ist der M-Punktvektor (l/G) * 
QVqi. Der Vektor Cp steht mit dem Vektor QVp uber den 
Rauschformf ilterbetrieb nach Gleichung 11 in Verbindung. 
Wenn demzufolge auf den Decodiervektor QVp zugegriffen 
wird, so muS kein Umkehr- bzw. Inversrauschenf ormf ilter in 
dem Decodierverf ahren berechnet werden. Die Tabelle 125 -von 
Fig. 6 enthalt somit rauschkompensierte Quant is ierungs vek- 
toren. 

Bei der Weiterf uhrung der Berechnung der Codiervektoren fur 
die Vektoren bij> welche das Restsignal r„ bilden, wird auf 
den Decodiervektor des Zeigers zu dem Vektor zugegriffen 
(Block 124) . Dieser Decodiervektor wird zur Filterung und 
PBUF-Aktualisierung verwendet (Block 126) . 

Pur den Rauschf ormf ilter wird, nachdem die decodierten Pro- 
ben fur jeden Unterblock bj^ berechnet sind, der Fehlervek- 
tor (b^-QVqi) durch den Rauschf ormf ilter gefuhrt/ wie es in 
Gleichung 14 dargestellt ist. 



= 0.875 * Wj.i - 0.5 * Wj.2 + 0.4375 * W^.j + [b„ - 

QV,i(j)l; 

0 < j < M Gleichung 14 

In Gleichung 14 represent iert der Wert QV,i(j) die j-te 
Komponente des Decodiervektors QV,i. Die Rauschformf ilter- 
zustande fur den nachsten Block werden wie in Gleichung 15 
gezeigt aktualisiert . 

w.i = w„.i 
W.J = w„.3 

_ Gleichung 15 

Dieses Codieren und Decodieren wird fur samtliche der N/M 
Unterblocke durchgefOhrt , urn N/M Indizes auf die Decodier- 
vektortabelle 125 zu erhalten. Dieser String an Indizes Q„, 
wobei n Werte zwischen Null und N/M-1 annimmt, repr&sen- 
tiert Identifikationen fur einen String von Decodiervekto- 
ren fur das Rest signal r„. 

Somit represent ieren vier Parameter die N-Punkt- 
Datensequenz y„: 

1. optimaler Pitch, P.^^ (8. Bite) , 

2. pitchf iltesrv^erstarkung, P (4 Bits) , 

3. Skalierparameter G (3 Bits) , und 

4. ein String von Decodiertabellenindizes Qn (0 n < 
N/M) . 

Die Parameter p und G konnen zu einem einzelnen Byte co- 
diert werden. Somit werden lediglich (N/M) plus 2 Bytes zum 
Reprasentieiren von N Sprachproben verwendet. Es wird bei- 
spielhaft angenommen, daS der Nominal- bzw. Nennpitch 100 



Proben lang ist, wobei M=16 gilt. In diesem Fall wird ein 
Rahmen von 96 Sprachproben wiedergegeben durch 8 Bytes : 1 
Byte fur P^^^, 1 Byte f\ir p und G und 6 Bytes fur die Deco- 
diertabellenindizes Q^. Wenn die nichtkoniprimierte Sprache 
aus 16 -Bit -Proben besteht, so stellt dies eine Kompressibn 
von 24 : 1 dar . 

Unter erneuter Bezugnahme auf Fig. 4 werden vier Parameter, 
die die Sprachdaten identif izieren, gespeichert (Block 57) . 
Bei einem bevorzugten System werden diese in einer Struktur 
gespeichert, wie es unter Bezugnahme auf Fig. 3 beschrieben 
wurde, wobei die Struktur des Rahmens wie folgt gekenn- 
zeichnet werden kann: 

#define NumOf VectorsPerFrame (FrameSize / Vec- 

torSize) 

struct frame \ 

unsigned Gain : 4; 

unsigned Beta : 3 ; 

unsigned UnusedBit : 1 ; 

unsigned char Pitch ; 

unsigned char Vqcodes [NumOfVectorsPerFramel; ^} 



Die Diphonauf zeichnung von Fig. 3, die diese Rahmenstruktur 
verwendet, kann wie folgt gekennzeichnet werden: 

D iphonau f 2 e i chnung 

char Left Phone, RightPhone; 

short Lef tPitchPeriodCount , RightPitchPe- 

riodCount; 



short *Lef tPeriods, *RightPeriods; 

struct frame *LeftData, *RightData; 

Die gespeicherten Parameter stellen eine einzigartige Iden- 
tifikation der Diphone bereit, die fur die Text-2u-Sprach- 
Synthese erfbrderlich sind. 

Wie oben angegeben unter Bezugnahme auf Fig. 6, fuhrt die 
Codiereinrichtung das Decodieren der Daten fort, die co- 
diert sind bzw. werden, urn die Filter- und PBUP- Werte zu 
aktualisieren. Der erste hierbei durchgef uhrte Schritt ist 
ein Invers- bzw. Umkehrpitchfilter (Block 58). Wenn der 
Vektor r „, der dem decodierten Signal entspricht, welches 
durch die Verkettung des Strings von Decodiervektoren ge- 
bildet ist, urn das Restsignal r „ darzustellen, wird der 
Inversfilter implementiert wie in Gleichung 16 dargestellt. 

y „ = r „ + P * PBtJFp^ - Popt ♦ n ; 0 < n < N 
Gleichung 16 

Anschliefiend wird der Pitchpuffer aktualisiert (Block 59) , 
und zwar mit der Ausgabe des Umkehrpitchf liters . Der Auf- 
teilungspuffer PBUF wird aktualisiert, wie es in Gleichung 
17 angegeben ist. 

PBUF„ = PBUFj„,«,; 0 < n < (P^ - N) 

PBUF,^ . , . „, = y „, 0 <_n < N Gleichung 17 

Schliefilich werden die Linearpradiktionsf ilterparameter un- 
ter Verwendung eines Inverslinearpradiktionsf ilterschrittes 
(Block 60) aktualisiert. Das Ausgangs signal bzw. die Ausga- 
be des Inverspitchf liters wird durch einen Umkehrlinearpra- 



diktionsfilter erster Ordnung gefuhrt, urn die decodierte 
Sprache zu erhalten. Die Dif f erenzgleichtmg zum Implemen- 
tieren dieses Filters ist in Gleichung 18 angegeben. 

X „ = 0.875 * X + y „ 
Gleichung 18 

In Gleichung 18 ist x „ die dekomprimierte Sprache. Hieraus 
wird der Wert von x.^ f ur den nachsten Rahmen zur Verwendung 
in dem Schritt des Blockes 52 eingestellt auf den Wert x„. 

Fig. 7 stellt die Decodierroutine dar. Das Decodermodul ak- 
zeptiert als Eingabe bzw. Eingangssignal (N/M) + 2 Bytes an 
Daten, welche durch das Codiermodul erzeugt sind and wendet 
als Ausgabe N Sprachproben an. Der Wert von N wird abhangig 
von dem Nennpitch der Sprachdaten sein, wobei der Wert von 
M abhangig ist von dem gewunschten Kompressionsverhaltnis . 

Bei ausschlielSlich sof twarebasierenden Text-zu-Sprach- 
Systemen muS die Berechnungskomplexitat des Decodierers so 
gering wie moglich sein, urn sicherzustellen, dafi das Text- 
zu-Sprach- System in Echtzeit- laufen kann, und zwar selbst 
auf langsamen Computern. Ein Blockdiagramm des Decodierers 
ist in Fig. 7 gezeigt , 

Die Routine beginnt durch- die Annahme von Diphonauf zeich- 
nungen bei Block 200. Der erste Schritt beinhaltet das Ab- 
schatzen der Parameter G, P^p^ ^^id des Vektorquantisier- 
strings Q„ (Block 201) . AnschlieSend wird das Restsignal 
r^ decodiert (Block 202). Dies umfaSt das Zugreifen auf 
und das Verketten der Decodiervektoren fur den Vektorquan- 
tisierstring, wie es schematisch beim Block 203 gezeigt 
ist, mit einem Zugriff auf . die Decodiervektortabelle 125. 



Nachdem das Restsignal r „ decodiert ist, wird ein Umkehr- 
pitchf ilter angewendet (Block 2 04) . Dieser Umkehr- bzw. In- 
verspitchfilter wird implementiert , wie es in Gleichung 19 
gezeigt ist: 

y „ = r „ + p * SPBUF (P^ - Popt + n) , 0<_n <N. 
Gleichung 19 

SPBUF ist ein Synthetisierpitch- bzw. -Aufteilungepuf fer 
der Lange P^, und zwar initialisiert auf Null fur jeden 
Diphon, wie oben beschrieben, unter Bezugnahme auf den Co- 
dierpitchpuf fer PBUF. 

Fur jeden Rahmen wird der Synthesepitchpuf f er aktualisiert 
(Bock 205). Die Weise, in welcher dieses Aktualisieren er- 
folgt, ist in Gleichung 20 dargestellt: 

SPBUF„ = SPBUF , N) 
SPBUF,p^ - H * „)= y n 
Gleichung 20 

Nach dem Aktualisieren von SPBUF wird die Sequenz y „ auf 
den inverslinearpradiktionsfilterschritt angewendet (Block 
206). Somit wird die Ausgabe des Umkehrpitchf ilters y„ 
durch einen inverslinearpradiktionsf ilter erster Ordnung 
gefuhrt, urn die decodierte Sprache zu erhalten. Die Diffe- 
renzgleichung zum Implementieren des Umkehrlinearpradikti- 
onsf ilters ist in Gleichung 21 angegeben: 



0<n< (P,^ - N) 
0<.n<N 



X „ = 0.875 * X „.i + y „ 
Gleichung 21 



In Gleichung 21 entspricht der Vektor x „ der dekomprimier- 
ten Sprache. Dieses Filterverf ahren kann implement iert wer- 
den unter Verwendung einfacher Verschiebeschritte bzw. - 
Handhabungen und erfordert keine Multiplikation. Demzufolge 
kann eine schnelle Ausfuhrung gewahrleistet werden, wobei 
sehr geringe Mengen an Hostcomputerressourcen verwendet 
werden . 

Codieren und Decodieren von Sprache gemaS den oben be- 
schriebenen Algorithmen bietet mehrere Vorteile gegenuber 
Systemen gemafi dem Stand der Technik. In erster Linie bie- 
tet diese Technik hohere Sprachkompressionsraten mit Deco- 
dierern, die einfach genug sind, urn in der Implementierung 
von reinen Software-Text -zu-Sprach-Systemen an Computersy- 
stemen mit niedriger Verarbeitungsleistung verwendet zu 
werden. Zum anderen bietet die Technik ein sehr flexibles 
Verhaltnis zwischen dem Kompressionsverhaltnis und der Syn- 
thetisiersprachqualitat . Ein Hochleistungscomputersystem 
kann fur eine synthetisierte Sprache von hoherer Quaiitat 
zu Lasten einer starkeren RAM-Speicheranf orderung ausgelegt 
werden . 

Ill , Wellenf ormvermischunq fur Diskont inuitatenglattuna 
(Fig. 8 und 9) 

Wie oben unter Bezugnahme auf Fig. 2 erwahnt, konnen die 
synthetisierten Rahmen von Sprachdaten, erzeugt unter Ver- 
wendung der Vektorquantisiertechnik, zu leichten Diskonti- 
nuitaten zwischen Diphonen in einem Text string fuhren, Dem- 
zufolge stellt das Text -zu-Sprach- System ein Modul bereit 
zum Vermischen der Diphondatenrahmen, urn solche Diskonti- 
nuitaten zu glatten. Die Vermischungs- bzw. Abmischtechnik 



gemaS der bevorzugten Ausfuhrungsf orm wird dargestellt un- 
ter Bezugnahme auf die Fig. 8 und 9. 

Zwei verkettete Diphone warden einen Endungsrahmen und ei- 
nen Anf angsrahmen aufweisen. Der Endungsrahmen des linken 
Diphons muS vermischt warden mit dem Anf angsrahmen des 
rechten Diphons, und zwar ohne dafi horbare Diskontinuitaten 
Oder Klicks erzeugt wurden. Da der rechte Rand des ersten 
Diphons und der linke Rand des zwei ten Diphons in den mei- 
sten Situationen demselben Phonem entsprechen, wird vori ih- 
nen angenommen, dafi sie eine ahnliche Erscheinung an dem 
Verkettungspunkt aufweisen. Da jedoch die zwei Diphoncodie- 
rungen aus einem unterschiedlichen Kontext extrahiert wer- 
den, warden sie nicht identisch zueinander sein. Diese Ver- 
mischungstechnik wird angewendet zum Eliminieren von Dis- 
kontinuitaten an dem Verkettungspunkt . In Fig. 9 ist der 
letzte Rahmen, Bezugnahme wird hier auf eine Pitchperiode 
genommen, des linken Diphons mit L„ beziffert ( 0<n<PL) , 
tihd zwar am oberen Rand der Seite. Der erste Rahmen 
(Pitchperiode) des rechten Diphons ist mit beziffert 
(0<.n<PR) , Das Vermischen von und R,, gemaS der vorliegen- 
den Erfindung wird lediglich diese zwei Pitchperioden ver- 
andern und wird durchgefuhrt wie beschrieben unter Bezug- 
nahme auf Fig. 8. Die Wellenformen in Fig. 9 sind gewahlt 
zur Darstellung des Algorithmus und mussen nicht reprasen- 
tativ fur reale Sprachdaten sein. 

Damzufolge beginnt der Algorithmus, wie in Fig. 8 gezeigt, 
mit dem Empfang des linken und rechten Diphons in einer Se- 
quenz (Block 3 00) . AnschlieSend wird der letzte Rahmen des 
linken Diphons in dem Puffer gespeichert (Block 301). 
Ferner wird der erste Rahmen des . rechten Diphons in dem 
Puffer R„ (Block 302) gespeichert. 



AnschlieSend repliziert der Algorithmus und verkettet den 
linken Rahmen urn einen erweiterten bzw. ausgeweiteten 
Rahmen zu bilden (Block 3 03) . In dem anschliefienden Schritt 
warden die Diskontinuitaten in dem erweiterten Rahmen zwi- 
schen den replizierten linken Rahmen geglattet (Block 3 04) . 
Dieser geglattete und erweiterte linke Rahmen wird als EI^ 
in Fig. 9 bezeichnet. 

Die erweiterte Sequenz EI„ (0<n<2*PL) wird in dem ersten 
Schritt erhalten, wie in Gleichung 22 gezeigt: 

n = 0,1,..., PL-1 
n = 0,1,..-, PL-1 

Anschliefiend wird die Diskontinuitatenglattung von dem 
Punkt n = PL ausgef uhrt , und zwar entsprechend dem Filter 
von Gleichung 23 : 

EI„,,= EI„,„-h [EI(p,.,, - EI (p,.„] * A»*^' 

n = 0,1,..., (PL/2) . 
Gleichung 2 3 

In Gleichung 23 ist der Wert A gleich 15/16, wobei EI (pj.^ 
= EIj + 3 * (Ell " E^o) - Demzufolge, und wie es in Fig. 9 
angegeben ist, ist die erweiterte Secgpienz EI^ im wesentli- 
chen gleich L„ an der linken Seite und verfugt uber einen 
geglatteten Bereich, beginnend an dem Punkt PL und uberge- 
hend zu der Original- bzw. Ursprungsf orm von 1^ hin zu dem 
Punkt 2PL. Wenn L„ perfekt periodisch war, so gilt EIp^.i = 

PL-1- 



EIn = 

Gleichung 22 



In dem anschlieSenden Schritt wird die optimale Abstinunung 
bzw. Anpassung von mit dem Vektor EI„ ermittelt. Dieser 
Ubereinstimmungspunkt wird als P^pt bezeichnet (Block 305) . 
Dies wird im wesentlichen erzielt, wie es in Fig. 9 gezeigt 
ist, durch Vergleichen von mit EI^, um den Abschnitt von 
EI„ zu finden, welcher am besten zu pafit bzw. am deut- 
lichsten mit diesem ubereinstimmt . Diese optimale Vermi- 
schungspunktbestimmung wird durchgefuhrt unter Verwendung 
von Gleichung 24, wobei W das Minimum von PL und PR ist, 
und wobei AMDF die mittlere Betragsdif f erenzfxinktion wie- 
dergibt . 

W-1 

AMDF(p) = Z I EI„,p-R^ 1 

n = 0 
Gleichung 24 

Diese Funktion wird fur Werte yon p in dem Bereich von 0 
bis PL- 1 berechnet . Die vertikalen Striche in der Operation 
bezeichnen den Absolutwert . W ist die FenstergroSe fur die 
T^MDF Berechnung. P^pt wird als Wert gewahlt, bei welchem 
AMDF(p) minimal ist. Dies bedeutet, da6 p = P^^,. dem Punkt 
entspricht, an welchem die Sequenzen EI„ ^ p(0<n<W) und 
R^(0<n<W) sehr nah beieinander liegen. 

Nach der Bestimmung des optimalen Vermischxxngspunktes Pap%, 
werden die Wellenformen vermischt (Block 306) . Das Vermi- 
schen verwendet eine erste Gewichtungsrampe bzw. -funktion 
WL, welche in Fig. 9 gezeigt ist als bei P^pt in der EI„- 
Spur beginnend. In einer zweiten Rampe ist WR in Fig. 9 ge- 
zeigt bei der R„-Spur, welche aufgezeichnet ist mit Popf 
Somit wird beim Anfang des Vermischungsverf ahrens der Wert 



von EI„ hervorgehoben bzw. betont. An dem Ende des Vermi- 
schungsverf ahrens wird der Wert von R,, hervorgehoben. 

Vor dem Vermischen bzw. Abmischen wird die Lange PL von 
nach Bedarf verandert, um zu sichern, dafi, wenn die modifi- 
zierten und verkettet werden, die Wellenf ormen mog- 
lichst kontinuierlich sind. Somit wird die Lange P L einge- 
stellt auf Popt/ wenn P^pt grofier als PL/2 ist. T^sonsten ist 
die Lange P L gleich W + Popt* wobei die Sequenz L^ gleich 
ist EI„ fur 0<n<(P L-1) - 

Die Veirmischungsrampe, die beira Punkt P^^p^ beginnt, ist in 
Gleichung 25 angegeben: 

Rn = EI„,popt+ (Rn - EIn.Popt) * (n + 1 ) /W 0<n<W 
Ra = Rn W<n<PR 
Gleichung 2 5 

Die Sequenzen L„ \and R„ werden somit fenstermaSig verwaltet 
und addiert, um den bzw. die abgemischten R„ zu erhalten. 
Der Anfang von L^ und die Endung von R^ werden beibehalten* 
um jegliche Diskontinuitaten mit benachbarten Rahmen zu 
vermeiden. 

Diese Vermischungstechnik wird erachtet als Vermischungs- 
rauschen minimierend bei synthetisierter Sprache, die durch 
beliebige Verkettungssprachsynthese erzeugt ist. 

IV. Pitch- und Dauermodif ikation (Fig, 10 bis 18) 

Wie oben unter Bezugnahme auf Fig. 2 angegeben.. untersucht 
ein Textanalysierprogramm den Text und bestimmt die Dauer 
und die Pitchkontour von jedem Phon, welches synthetisiert 



werden mufi, und erzeugt Betonungssteuersignale . Eine typi- 
sche Steuerung fOr ein Phon wird angeben, daS ein gegebenes 
Phonem, wie zum Beispiel AE, eine Dauer von 200 Millisekun- 
den aufweisen sollte, wobei ein Pitch linear von 220 Hz auf 
300 Hz ansteigen sollte. Diese Anforderung ist graphisch in 
Fig. 10 gezeigt. Wie es in Fig. 10 gezeigt ist, ist T 
gleich der gewunschten Dauer (z.B. 200 Millisekunden) des 
Phonems. Die Frequenz ist der gewiinschte Anfangspitch in 
Hz. Die Frequenz f. ist der gewunschte Endpitch in Hz. Die 
Markierungen bzw. Label P„ P,, . . . , P« geben die Zahl von 
Proben in jedem Rahmen an, urn die gewCinschten Pitchf requen- 
zen fb, f.2--" erhalten. Die Beziehung zwischen der 

gewunschten Zahl von Proben, P^, und der gewiinschten 
Pitchfrequenz (f. = fj ^i^d definiert durch die Bezie- 
hung; 

Pi = Fs/fi' wobei F. die Abtastf requenz fur die Daten ist. 

Wie es in Fig. 10 zu sehen ist, ist die Pitchperiode fOr 
eine Niederf requenzperiode des Phonems langer als die 
Pitchperiode fiir eine hoherf requente Periode des Phonems. 
Wenn die Nominal frequenz Pj ware, so wurde der Algorithmus 
die Pitchperiode fur die Rahmen P^ und P, verlSngem, und 
die Pitchperioden fur die Rahmen P«, P, und P^ absenken miis- 
sen. Auch die gegebene Dauer T des Phonems wird angeben, 
wie viele Aufteilungs- bzw. Pitchperioden eingefuhrt oder 
von dem codierten Phonem geloscht werden sollten, urn die 
gewunschte Periodendauer zu erhalten. Fig. 11 bis 18 stel- 
len eine bevorzugte Implement ierung solcher Algorithmen 
dar. 



Fig. 11 stent einen Algorithmus dar zur VergrdSerung der 
Pitchperiode, und zwar unter Bezugnahme auf die Kurven bzw. 



Graphen von Fig. 12. Der Algorithmus beginnt, indem eine 
Steuerung empfangen wird zum VergrolSern der Pitchperiode 
auf N + A, wobei N die Pitch- periode des codierten Rahmens 
ist (Block 350) . In dem nachsten Schritt werden die 
Pitchperiodendaten in einem Puffer x„ gespeichert (Block 
351) . x„ ist in Fig. 12 in dem oberen Abschnitt der Seite 
dargestellt. In dem anschlieSenden Schritt wird ein Links- 
vektor bzw. ein linker Vektor L„ generiert durch Anwenden 
einer Gewichtungsf unktion WL auf die Pitchperiodendaten 
und zwar unter Bezugnahme auf A (Block 352) . Diese Gewich- 
tungsf unktion ist in Gleichung 26 angegeben, wobei gilt M = 
N - A: 

fur 0<.n<A 
fur A < n < N 

Wie es in Fig. 12 zu sehen ist, ist die Gewichtungsfunktion 
WL konstant von der ersten Probe zu der Probe A und nitnmt 
von A zu N ab . 

Anschliefiend wird eine Gewichtungsfunktion WR auf x„ ange- 
wendet (Block 353), wie es in Fig. 12 zu sehen ist. Diese 
Gewichtungsfunktion wird ausgefuhrt, wie es in Gleichung 27 
gezeigt ist : 

R„ = x„ ♦A * (n + 1) / (M + 1) fur 0<n<N - A 

= x„ ^ ^ fur N - A<n<N 

Gleichung 27 

Wie es in Fig. 12 zu sehen ist, nimmt die Gewichtungsf \jnk- 
tion WR von 0 zu N - A zu und verbleibt konstant von N - A 
bis hin zu N. Die result ierenden Wellenformen und R^ 



Ln= ^ * (N-n) / (M+1) 
Gleichung 26 



sind konzeptartig in Fig. 12 dargestellt. Wie zu erkennen 
ist, behalt den Anfang der Sequenz bei, wahrend R« das 
Ende bzw, die Endung der Daten beibehalt. 



Die pitchmodifizierte Sequenz y„ wird gebildet (Block 354), 
indem die zwei Sequenzen addiert werden, wie es in Glei- 
chung 28 gezeigt ist: 

y„ = L„ + R<n. A, Gleichung 28 

Dies ist graphisch in Fig. 12 gezeigt, indem urn A ver- 
schoben unterhalb von Ij„ angeordnet ist. Die Kombinatiori 
von L„ und R„/ verschoben um A, ist als am iinteren Rand 
von Fig- 12 gezeigt. Die Pitchperiode fur y„ ist N + A. Der 
Anfang von y„ ist entsprechend bzw. identisch zu dem Anfang 
von x„, wobei die Endving von y„ im wesentlichen identisch 
bzw. entsprechend ist zu der Endung von x^. Somit kann eine 
Kontinuitat mit benachbarten Rahmen in der Sequenz beibe- 
halten werden, wobei ein glatter Ubergang erzielt wird, 
wahrend die Pitchperiode der Daten erweitert wird. 

Gleichung 28 wird ausgefuhrt unter der Annahme, dafi L„ Null 
ist, und zwar fur n<N, und R„ Null ist, und zwar fur n<0. 
Dies ist bildartig in Fig. 12 dargestellt- 

Eine effiziente Implementierung dieses Schemas, welches 
hochstens eine Multiplikation je Probe erfordert, ist in 
Gleichung 29 gezeigt: 

y„ = ^ 0<n<A 
y„ = x„ + [x„., - xj * (n - A + 1) / (N - A 1) 
A<n<N 



Yn = 



Xn - A 



N<n<N4 



Gleichung 29 

Dies resultiert in einer neuen Pitchperiode mit einer 
Pitchperiode von N + A. 

Es kann ebenfalls vorkommen, dafi die Pitchperiode verklei- 
nert werden mufi. Der Algorithmus zum Absenken bzw. Verklei- 
nern der Pitchperiode ist in Fig. 13 gezeigt unter Bezug- 
nahme auf die Graphen von Fig • 14 . Demzuf olge beginnt der 
Algorithmus mit einem Steuersignal, welches angibt, daS die 
Pitchperiode verringert werden muS auf N-A (Block 400) . Der 
erete Schritt besteht darin, zwei auf einanderf olgende 
Pitchperioden in dem Puffer x„ zu speichern (Block 401) . 
Somit besteht der Puffer x^, wie es in Fig, 14 zu sehen 
ist, aus zwei auf einanderf olgenden Pitchperioden, wobei die 
Periode die Lange der ersten Pitchperiode und die Lan- 
ge der zweiten Pitchperiode ist. Anschliefiend werden zwei 
Sequenzen 1^ und konzeptartig erzeugt, unter Verwendung 
von Gewichtungsfunktionen WL und WR (Blocke 402 und 403) . 
Die Gewichtungsfunktion WL betont den Anfang der ersten 
Pitchperiode, wobei die Gewichtungsfunktion WR die Endung 
der zweiten Pitchperiode betont. Diese Funktionen konnen 
konzeptartig wiedergegeben werden, wie es in den Gleichun- 
gen 30 bzw. 31 gezeigt ist: 

L4, = x„ fur 0<.n<Ni - W 



L„ = x„ * (Ni-n)/ (W+1) 



W<n<Ni 



Gleichung 30 



fur andere Falle 



R„ = * (n-Ni+W-A+l>/ (W+1) fur Ni-W+A<n<Ni+A 
R^ = x„ fur Ni+A<.n<Ni+N^ 



R„ = 0 

Gleichung 31 



fur alle anderen Falle 



In diesen Gleichungen ist A gleich der Differenz zwischen 
Nj und der gewunschten Pitchperiode N^. Der Wert M ist 
gleich zu 2 * A, insoweit 2 * A nicht grofier als Na ist, in 
welchem Fall W gleich ist. 

Diese zwei Sequenzen L„ und R„ werden vermischt zur Bildung 
einer pitchmodif izierten Sequenz y„ (Block 404) . Die LSnge 
der pitchmodif izierten Sequenz y„ wird gleich sein der Sum- 
me der gewunschten Lange der Lange des rechten Phonemrah- 
mens N,. Sie wird gebildet durch Addieren der zwei Sequen- 
zen, wie es in Gleichung 32 gezeigt ist: 

= L„ + R,„.M Gleichung 32 

Demzufolge werden zwei auf einanderf olgende Pitchperioden 
von Oaten beeinflulSt, wenn eine Pitchperiode verkleinert 
wird, obwohl lediglich die Lange von einer Pitchperiode 
verandert wird. Dies erfolgt, da Pitchperioden an Orten 
aufgeteilt sind bzw. werden, an welchen Kurzzeitenergie am 
niedrigsten innerhalb einer Pitchperiode ist. Somit beein- 
flufit diese Strategic lediglich den Niederenergieabschnitt 
der Pitchperioden. Dies minimiert die durch die Pitchtnodi- 
fikation bedingte Beeintrachtigung der SprachqualitSt . Es 
sei zu verstehen gegeben, dafi die Zeichnungen in Fig. 14 
vereinfacht sind und keine tatsachlichen Pitchperiodendaten 
wiedergeben. 

Eine effiziente Implementierung dieses Schetnas, welches 
hochstens eine Multiplikation je Probe erfordert, ist in 
Gleichungen 33 und 34 angegeben. 



Die erste Auf teilungsperiode der Lange ist durch Glei- 
chung 33 angegeben: 



Yn = x„ + - * (n-N,+W+l)/{W+l) N,-W<n<N^ 
Gleichung 33 

Die zweite Pitchperiode der Lange wird erzeugt, v/ie es 
in Gleichung 34 gezeigt ist: 

y» = x^-A + [x„ - x„-a] * (n-A-Ni+W+l)/(W+l) Ni<n<Ni+A 
Gleichung 34 

Wie aus Fig. 14 ersichtlich, ist die Sequenz im wesent- 
lichen bis zu dem Punkt N^-W gleich der ersten Pitchperi- 
ode. Bei diesem Punkt wird eine abnehtnende Rampe WL auf das 
Signal angewendet, urn den EinfluS der ersten Pitchperiode 
zu damp fen. 

Wie ferner erkannt werden kann, beginnt die Gewichtungs- 
funktion WR an dem Punkt - W + A und wendef eine anstei- 
gende Rampe auf die Sequenz x„ bis zu dem Punkt + A an- 
Von diesem Punkt wird ein konstanter Wert angewendet. Dies 
bewirkt eine Dampfung des Einflusses der rechten Sequenz 
und betont die linke wahrend des Anfangs der Gewichtungs- 
funktionen und generiert ein Endungssegment , welches im we- 
sentlichen gleich ist dem Endungs segment von wobei die 

rechte Sequenz betont wird, wahrend die linke gedampft 
wird- Wenn die zwei Funktionen vermischt sind, ist die re- 
sultierende Wellenform y„ im wesentlichen gleich dem Anfang 



von x„ an dem Anfang der Sequenz, wobei an dera Punkt Nj - W 
eine modif izierte Sequenz bis zu dem Punkt .Ni generiert 
wird. Von Nj zu der Endung result iert die Sequenz x„ als um 
A verschoben. 

Es besteht also ein Bedarf fur das Einfugen von Pitchperi- 
oden, urn die Dauer eines gegebenen Tones bzw. Lautes zu 
verlangern. Eine Pitchperiode wird gemaS dem in Fig. 15 ge- 
zeigten Algorithmus eingefuhrt, wobei Bezug genommen wird 
auf die Zeichnungen von Fig. 16. 

Der Algorithmus beginnt, indem er ein Steuersignal emp- 
fangt, und fugt eine Pitchperiode zwischen Rahmen L„ und 
ein (Block 450). Anschliefiend werden sowohl L„ als auch R» 
in dem Puffer gespeichert (Block 451) , wobei 1^ und R„ zwei 
benachbarte Pitchperioden eines Sprachdiphons sind. (Ohne 
Verlust der General is ierung wird fur die Beschreibung ange- 
nommen, daB die zwei Sequenzen gleiche Langen N aufweisen.) 

Um eine Pitchperiode x„ derselben Dauer einzufugen, ohne 
eine Diskontinuitat zwischen L„ und x„ und zwischen x„ und R> 
zu veranlassen, sollte die Pitchperiode in der NShe von 
n=0 R„ ahneln (Beibehaltung der Kontinuitat von !.„ zu x„) , 
und sollte iri der Nahe von n=N ahneln (Beibehaltung der 
Kontinuitat von x„ zu R„) . Dies wird erreicht, indem x„ de- 
finiert wird, wie es in Gleichung 35 gezeigt ist: 

^ = -R^ + (L„ - Rn) * [{n + 1)/(N + D] 0<n<N-l 
Gleichung 3 5 

KonzeptionsmaSig, wie in Fig. 15 gezeigt, schreitet der Al- 
gorithmus fort, indem ein linker Vektor WL (L„) erzeugt 



wird, itn wesentlichen anwendend die ansteigende Rampe bzw. 
auf die ansteigende Rampe WL auf das Signal (Block 452) . 

Ein rechter Vektor WR (R„) wird unter Verwendung des Ge- 
wichtungsvektors WR (Block 453) generiert, welcher im we- 
sentlichen eine abnehmende Rampe ist, wie in Fig. 16 ge- 
zeigt. Demzufolge wird die Endung von L„ mit dem linken 
Vektor betont, wobei der Anfang von R„ mit dem Vektor WR 
betont wird, 

AnschlieSend werden WR (L„) imd WR (R„) vermischt \im eine 
eingefugte Periode x„ zu erzeugen (Block 454) • 

Die Berechnungsanf orderung zum Einfugen einer Pitchperiode 
entspricht sorait lediglich einer Multiplikation und zwei 
Additionen je Sprachprobe. 

SchlieBlich erzeugt die Verkettung von li^, und eine 

Sequenz mit einer eingefugten Pitchperiode (Block 455) . 

Das Loschen einer Pitchperiode wird wie in Fig, 17 unter 
Bezugnahme auf die Graphen von Fig. 18 gezeigt, ausgefuhrt. 
Dieser Algorithmus, welcher sehr ahnlich zu dem Algorithmus 
zum Einfugen einer Pitchperiode ist, beginnt mit dem Emp- 
fangen eines Steuersignales, welches die Loschung einer 
Pitchperiode R^ angibt, und zwar der folgenden (Block 
500) . Anschliefiend werden die Pitchperioden und R^ in 
dem Puffer gespeichert (Block 501) . Dies ist bildartig in 
Fig. 18 an dem oberen Rand der Seite dargestellt. Emeut 
ohne EinfluS auf die General isierung wird angenommen, daB 
die zwei Sequenzen gleiche Langen N aufweisen. 



Der Algorithmus wird abgearbeitet , um die Pitchperiode L„ 
zu verandern, welche (der zu loschenden) vorangeht, so 
daB sie R„ ahnelt, wenn n sich an N annahert. Dies erfolgt, 
wie angegeben in Gleichung 36: 

L „ = + (Rn - * [(n+l)/(N+l)] 0<n<N-l 
Gleichung 36 

In Gleichung 36 ist die result ierende Sequenz L „ am unte- 
ren Rand von Fig. 18 gezeigt- Konzeptionsmafiig wendet die 
Gleichung 36 eine Gewichtungsf unktion WL auf die Sequenz Ij„ 
an (Block 502) . Dies betont wie dargestellt den Anfang der 
Sequenz L„. AnschlieSend wird durch Anwendung eines Gewich- 
tungsvektors WR auf die Sequenz R„, ein rechter Vektor WR 
(R„) erzeugt, welcher die Endung von R„ betont (Block 503) . 

WL (L„) \ind WR (R„) werden vermischt um den resultierenden 
Vektor L „ zu erzeugen (Block 504) . SchlieSlich wird die 
Sequenz 1^-R„ durch die Sequenz L „ in dem Pitchperioden- 
string ersetzt (Block 505) , 



V. Folaerunqen 

Dement sprechend schlagt die vorliegende Erfindung ein Nur- 
Software-Text-zu-Sprach-System vor, welches effizient ist, 
sehr geringe Mengen an Speicher verwendet und auf eine gro- 
6e Vielzahl an Standard-Mikrocomputerplattformen portierbar 
ist. Sie nutzt" die Kenntnis bezuglich Sprachdaten, • wobei 
eine Sprachkompressions- , Vermischungs- und Dauersteuerrou- 
tine erzeugt wird, um sehr hohe Sprachqualitat mit sehr ge- 
ringen Berechnungsressourcen zur Verfugung zu stellen. 



Ein Source-Code-Listing der Software zum. Ausf uhren der Kom- 
pression und Dekompression, des Vermischens, sowie die Bau- 
er und Pitchsteuerroutinen sind als Anhang und als Beispiel 
einer bevorzugten Ausf uhrungs form der vorliegenden Erfin- 
dung bereitgestellt • / ' 

Die vorangegange Beschreibung von bevorzugten Ausf uhrungs - 
formen der Erfindung wurde angegeben zum Zwecke der illu- 
strativen Darstellung und Beschreibung. Sie ist nicht als 
abschlieSend zu erachten oder als die Erfindung auf die 
prSzisen offenbarten Formen beschrankend. Of f ensichtlich 
konnen viele Veranderungen und Modif ikationen von dem 
Durchschnittsfachmann durchgefuhrt werden. Die Ausfuhrungs- 
formen vmrden gewahlt und beschrieben, urn am besten bzw. 
einfachsten die Prinzipien der Erfindung zu erlautern, so- 
wie der en praktikable Anwendung, so dafi der Fachmann in die 
Lage versetzt wird, die Erfindung fur verschiedene Ausfuh- 
rungsformen zu verstehen, wobei verschiedene Modif ikationen 
geeignet sein konnen fur die spezifische beabsichtigte Ver- 
wendung bzw. Anwendung. Der Umfang der Erfindung soil durch 
die folgenden Anspruche definiert sein. 



• • • 
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I. ENCODER MODULE 



^include <stdio.h> 
^include <math.h> 
^include <StdUb.h> 
^include <tvpes.h> 
^include <fcntl.h> 
^include < string. h> 

X^include <types.h> 
^include <files,h> 
^include <resources.h> 
^include <memory.h> 
^include "vqcoder.h" 

^define LAST^FRAME FLAG 128 
Jj^define PBUF^SIZE 440 

static float " oc_stateI21, nsf^statelNSF^ORDER + IL- 
static short pstatefPORDER + 1 1, dstatelPORDER + 1 J; 
static short AnaPbuflPBUF^SIZEl; 

static short vsize, cbook_size, bs_size; 

4^pragma segment vqlib 

/• Read Code Books •/ 
float •EncodeBooklMAX^CBOOK^SIZEJ; 
short •DecodeBookfMAX2CBOOK"siZEl; 
get cbook(short ratio) 

{ 

short *p; 

short frame^size, i; 
static short last^ratio = 0; 

Handle h; 
int skip; 

h = GetResourceCCBOKM); 

HLock(h); 

p = (short *) 'h; 

if (ratio = = last_ratio) 

return; 
last_ratio = ratio; 

if (ratio < 3) 
return; 



If (NOMINAL^PITCH < 165) 



frame_si2e = 96; 

else ■ i 

frame_si2e = 160; 

get_compr_pars(ratio. frame_size, &vsize. &cbook_size. &bs_si2e); 
skip = 0; 

while (p(skip+1) != vsize) 
{ 

short t1 , t2; 
t2 = piskipl; 

t1 = p[skip + 1J; . ^ . 

skip + = sizeof(float) • (2 • t2-l) * (t1 + 1 )/ sizeof (short) 
+ (2 • t2 • t1 + 2); 

) 

/•Skip Binary search tree */ 

skip +- sizeof (float) • (cbook_size-1) • (vsize+1) / sizeof (short) 
+ (cbook_size * vsize + 2); ^ 

/• Get pointers to Full search code books */ 
for (i «= 0; i < cbook_size; i + +) 

EncodeBooklil = (float •) &plskipl; 

skip + = (vsize+1) * sizeof (float) / sizeof (short); 

} 

for (i = 0; i < cbook_size; i+ + ) 

DecodeBookli) *= p + skip; 
skip + = vsize; 

} 

) 

char *getcbook(long •len, short ratio) 
{ 

get_cbodk(ratio); 

•len = sizeof(short) * vstfb * cbook^site; 

/• plus one is to make space at the end for the array of pointers •/ 
return (char*) DecodeBooklO]; 



/•A Routine for Pitch filter parameter Estimation */ 

GetPitchFilterPars (x, len, pbuf , min^pitch, max^pitch. pitch, beta) 

float •beta; 

short 'x, •pbuf; 

short min_pitch, max^pitch; 

short len; 

unsigned int * pitch; 

/• Estimate long-term predictor */ 



» « « * 
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int best_pitch, i. j; 

float syy, sxy. best_sxy = 0.0. best_syy = 1.0; 
short 'ptr; 

best_pitch = min_pitch; 

ptr = pbuf + PBUF_SIZE - min_pitch; 

syy = 1.0; 

for (i = 0; i < len; i + + ) 
{ 

syy + = Cptr) • (•ptr); 
ptr++; 

) 

for 0 = min pitch; j < max_pitch; j+ -f ) ^ 
{ 

sxy = 0.0; 

ptr = pbuf + PBUF_SIZE - j; 
for (i = 0; i < len; 

sxy + = x[il • (•ptr+ +); 

if (sxy > 0 && (sxy * sxy * best^syy > best^sxy • best sxy • syy)) 
{ 

best_syy = syy: 
best_sxy = sxy; 
best_pitch = j; 

} 

syy = syy - pbuf [PBUF_SIZE - j + len - 1 1 • pbuf[PBUF_SIZE - j + len - 11 
+ pbuflPBUF_SIZE - j - 11 • pbufIPBUF_SIZE - j - 11; 

) 

•pitch = best_pitch; 

•beta = best sxy / best_syy; 

) 

/• Quantization of LTP gain parameter */ 
CodePitchFilterGainCbeta, bcode) 
float beta; 

unsigned int •bcode; 

{ 

int i; 

for (i = O; i < DLB_TAB SIZE; i + +) 
{ 

if (beta < = dlb_tabli]) 
break; 

} 

•bcode = i; 

) 

/• Pitch filter •/ 

PitchFilter(data, len, pbuf. pitch, ibeta) 
float 'data: 



m • • . 

• • • 

• • * « 



I • « • 
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short ibeta; 
short 'pbuf; . 
short len; 
unsigned int pitch; 

{ 

long pn', 
int i, j: 



j » PBUF_SI2E - pitch; 
for (i = 0; i < len; i + + ) 
( 

pn = ((ibeta • pbufU ++])>> 4); 
dataii] - = pn; 

} 

} 

/• Forward Noise Shaping filter */ 

FNSFilter(float 'inp. float "state, short len. float 'out) 

{ 

short i, j; 

for (j = 0; j < len; j + +) 
{ 

float tmp - inp[jl; 

for <i = 1; i < = NSF_ORDER; i + + ) 

tmp + = stated] • nsfli]; 
outlj] = statelO] = tmp; 
for (i = NSF_ORDER; i > 0; i-) 

stateli] = stateIi-11; 

) 

) 

/• Update Noise shaping Filter states •/ 
UpdateNSFState(float "inp. float "state, short len) 

{ 

short i, j; 

float tennp_stateINSF_ORDER+11; , 

for (i = 0; i < = NSF^ORDER; i+ +) 
temp_statelil - 0; 

for (j = 0; J < len; j+ +) 
{ 

float tmp = inpljl; 

for (i = 1 ; i < := NSF^ORDER; i + + ) 
tmp -f = temp_state[il * nsflil; 

temp_state[01 = tmp; 

for NSF^ORDER; i > O; i--) 

temp_statelil = temp_stateli-11; 



) 

for (i = 0; i < = NSF_ORDER; i + + » 
stateli) = stated! - temp statelil; 

) 

/• Quantization of Segment Power */ 
CodeBlockGain(power, gcode) 
float power; 
unsigned int * gcode; 

{ 

int i; 

for (i = 0; i < DLG^TAB SIZE; i + + ) 

{ " 
if (power < = dlg_tabni) 
break; 

) 

•gcode = i; 

} 

/• Full search Coder ♦/ 

VQCoder(float *x, float *nsf state, short len, struct frame 'bs) 

{ 

float max_x, tmp; 

int i, j, index, Ishift^count; 

unsigned int gcode; 

float min_err = 0; 

max_x = xtOl; 
f or (i = 1 ; i < len; i + + ) 
if ( fabs(x[i)) > max_x) 
max_x = fabs(xTil); 

CodeBlockGain(max_x, &gcode); 
max_x = qlg_tab[gcode]; 

lshift_count = 7 - gcode; /* To scale 14-bit Code book output to the 16-bit 

actual value */ 

bs-> gcode = gcode; 

for (i = 0; i < len; i + = vsize) 
{ 

/• Filter the data vector */ 
FNSRIter(&x[il. nsf_state, vsize, &xlil); 

/* Scale data */ 
for (j = i; j < i + vsize; ] + + ) 
x[jl = xlil • 1024 /max_x; 

index = 0; 

for (j = O; j < cbook size; j-f +) 

{ " 



tmp = EncodeBookfjllvsizel • 1024.0; 
for (k = 0; k < vsize: k+ +) 

tmp-= xli + kl • EncodeBooklillkl; 

if (tmp < min err 1 1 j = = 0) 
{ 

index - ]: 
min err = tmp; 

) ■ 

bs-> vqcodeli/vsizej = index; 

/• Rescale data: Decoded data is 14-bits/ convert to 16 bits */ 
if (Ishift^count) 

for (k = 0; k < vsiie; k + +) 

x|i + k) = ((4 * DecodeBobklindexlIk]) >> Ishift.count): 

} 

else 

for (k 0; k < vsize; k+ +) 

xii+k] = 4 * DecodeBooklindexIIk}; 

} 

/• Update noise shaping filter state •/ 
UpdateNSFState(&xIil, nsf.state, vsize); 

) 

) 

init compressi) 

{ ' 

int i; 

oc_stateI0) = 0;; 
oc_state|11 = 0:; 
for 0 «= 0; i < = PORDER; i+ +) 

pstateCiJ = dstate[il =0; 
for (i = 0: i < PBUF_S1ZE; i+ +) 

AnaPbufliJ =0; 
for (i = 0; i < = NSF_ORDER; i+ + ) 

nsf stateli] = 0; 

) 

Encoder(xn, frame^size, min^pitch, max_pitch, bs) 
short xnll; 
struct frame *bs; 

short frame size, min^pitch, max_pitch; 

{ 

unsigned int pitch, bcode; 

float preemp^xnlPBUF^SIZEh beta; 

short xn_copylPBUF_SIZEl: 



short ibeta; 
float acc; 
int i, j; 



/• Offset Compensation */ 
for (i = 0; i < frame_si2e; i+ + ) 

{ 

float inp = xnlil; 

xnlil = inp - oc_state[01 + ALPHA * oc_stateI11; 
oc_stateni = xnlil; 
oc_statelOJ = inp; 

} 

/• Linear Prediction Filtering */ 
for (i = 0; i < frame_size; i+ 

{ 

acc = pstatelOl = xnlil: 

for (j = 1; J < = PORDER; ]+-»-) 

acc-= pstateljl • pfilt[j]; 
xn_copyIi] = preemp_xnlil = acc; 
for (j = PORDER; j > 0; H 

pstateljl = pstatelj-11; 

} 

GetPitchFilterPars (xn^copy, frame^size, AnaPbuf, min_pitch, 

max_pitch, &pitch, &beta); 
CodePitchRlterGainCbeta, &bcode); 
ibeta = qlb_tab(bcodel; 

bs->bcode - bcode; 

bs-> pitch = pitch - min^pitch + 1; 

PitchFilterlpreemp_xn, frame^size, AnaPbuf, pitch, ibeta); 

VQCoder(preemp_xn, nsf_state, frame^size, bs); 

/* Inverse filtering */ 

j = PBUF^SIZE - pitch; 

for (i = O; i < f rame_size; i + H- ) 

{ 

xn_copyIil = preemp_xnlil; 

xn'copyni + = ((ibeta • AnaPbuf (j + + 11 > > 4); 

) 

/• Update Pitch Buffer •/ 
j = 0: 

for (i = frame_si2e; i < PBUF_SIZE; i + + ) 

AnaPbuf Ij + + 1 = AnaPbuf [il; 
for (i = 0; i < frame size: i + + ) 



i • • • • 
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AnaPbuflj++l = xn^copYlil: 

/* Inverse LP filtering */ 

for (i = 0: • < frame size; i4- + ) 

{ 

acc = xn copyli): 

for (j = iTi < = PORDER; j+ +) 

acc = acc + dstateljl • pfilt(jl; 
dstatelO] = acc: 
for (j = PORDER: ] > 0; j-) 

dstateljl = dsiateIi-1J: 

) 

for (j = 0; i < = PORDER; j+ +) 
pstateljl = dstateljl; 

) 

compress (short -input, short ilen. unsigned char •output, long ♦olen, long docomp) 
{ 

int i. vcount; 

unsigned char temp; 

short frame^size, min_pitch, max^pitch; 

if (docomp > 2) 
{ 

init_compress(): 

if (NOMINAL_PITCH < 1 65) 
{ 

min_pitch = 96; 
frame_size = 96; 
max^pitch = 350; 

) 

else 
{ 

min_pitch = 160; 
frame^size = 160; 
max_pitch = 414; 

) 

bs size = frame_si2e / vsize + 2; 
/•TEMPORARY: Storing State information •/ 

pstate[1] = •(input - 1); 
if (pstatelU > 0) 

pstateHl = (pstatelll + 128)7 256 + 128; 

else 

pstatedl = (pstatelll - 128) 7 256 + 128; 

if (pstatelll < 0) 
pstatelll = 0; 



if (pstatelU > 255) 

pstatell) = 255; 
* output = pstatelU; 
1 = 1; 

pstatelU = pstatelU - 128; 
pstatelU = 256 • pstatelU; 
dstatelU = pstatelU; 
/• End of Hack V 

for (i = 0; i < ilen; i + = frame size) 

{ 

Encoderlinput-f i, frame^size, min_pitch, max_pitch, output 4- j); 
J + = bs_si2e; 

) 

j -= bs^size; 

/• Number of vectors in last frame */ 

vcount = (ilen + frame^size - i + vsize - U / vsize; 

temp = outputtj]; 

outputlj] = vcount + LAST_FRAME_FLAG; 
outputli + vcount + 2] = temp; 
•olen = j + vcount + 3; 

} 

else 
{ 

static long SampCount = 0; 
copyiinput, output, 2* ilen); 
SampCount + = ilen; 
•olen = ilen; 

} 

) 

copyla, b, len) 
short "a, "b; 
short len; 

( 

int i; 

for (i «= 0; i < len; i + + ) 
•b+ + = {•a+ +); 

) 
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II. DECODER MODULE 



^include <Types.h> 
^include <MemorY.h> 
#include <Quickdraw.h> 
^include <ToolUtils.h> 
^include <errors.h> 
jtfinclude <files.h> 

//include "vtcint.h" 
^include <stdlib.h> 
^include <math.h> 
^include <svsequ.h> 
/^include <string.h> 

#define MAX CBOOK SIZE 
^define LAST_FRAME_FLAG 
^define PORDER 
#define IPCONS 



256 
128 



#define 
#define 



LARGE_NUM 
VOICED 1 



1 

7 

100000000 



/• 7/8 •/ 



1 
0 



8 



jSfdefine LEFT ' 
jj'dBfine RIGHT 
^define UNVOICED 

^define PFILT_ORDER 

struct frame { 
unsigned gcode : 4; 
unsigned bcode : 4; 
unsigned pitch : 8; 
unsigned char vqcoded: 

); 

void expand(short • • DecodeBook. short f rame_size. short vsize. 
short min_pitch. struct frame 'bs. short 'output, short smpnum); 

get_compr_pars(short ratio, short frame^size, short •vsize. 
short •cbook_size. short •bs_size) 

{ 

switch (ratio) 

{ 

case 4: 

•vsize = 2; 
•cbook_size = 256; 
•bs_size = 1rame_si2e/2 + 2; 
break; 



case 7: 

•vsize = 4i 

*cbook_si2e = 256; 

*bs_size = frame_si2e/4 + 2; 

breaks- 
case 14: 

*vsi2e = 8; 

•cbook^size = 256; 

•bs^size = frame_si2e/8 + 2; 

break; 
case 24: 

*vsize = 16; 

•cbook^size = 256; 

*bs_size = f ranne_size/1 6 + 2; 

break; 
default: 

•vsize = 2; 

•cbook_size = 256; 

•bs_size = frame_size/2 + 2; 

break; 

) 

) 

short •Sntnit(short comp^ratio) 
{ 

short *state, *ptr; 
int i; 

state = ptr = (short * )NewPtr({PFILT_ORDER + 1 + PFILT_ORDER/2 + 2) 
sizeoftshort)); 

If ( state = = nil ) 

{ 

return nil; 

) 

for (i = 0;i < PRLT_ORDER + 1 ;i + + ) 
•ptr+ + = o" 

/• 

if (comp ratio = = 24) 
{ " 

•ptr+ + = 0.036953 • 32768 + 0.5; 
•ptr+ + = -0.132232 • 32768 - 0,5; 
•ptr++ = 0.047798 • 32768 + 0.5; 
•ptr++ « 0.403220 • 32768 + 0.5; 
•ptr++ = 0.290033 • 32768 + 0.5; 

) 

else 

{ 

•ptf++ = 0.074539 * 32768 + 0.5; 

•ptr + + = -0.174290 * 32768-0.5; 
'ptr = 0.013704 • 32768 + 0.5; 



•ptr++ = 0.426815 * 32768 + 0,5; 
♦ptr++ = 0.320707 • 32768 + 0.5; 

1 

7 

if (comp_ratio = = 24) 
{ 

•ptr++ = 1211; 
•ptr+ + = -4333; 
•ptr+ + = 1566; 
•ptr+ + «= 13213; 
*ptr+ + = 9504; 

) 

else 
{ 

•ptr+ + = 2442: 
•ptr+ + = -5711; 
•ptr-h t « 449: 
*ptr + + = 13986: 
*ptr+ + = 10509; 

•ptr = 0; /* DC value */ 

return state: 

) 

SnDonelchar *state) 

{ 

if ( state 1 s nil ) 
{ 

DisposPtr(state): 

) 

) 

short **SnDelnit(p, ratio, frame_size) 

short •p,ratlo, frame_si2e; 

{ 

int i; 

short cbook^size = 256, vsize - 16, bs^size; 
short **DecodeBook: 

get_compr_pars{ratio, frame_si2e, fiivsize, &cbook_si2e, &bs_size); 

DecodeBook = (short • •)NewPtr(cbopk_size * sizeoflshort*)); 
if (DecodeBook) { 

for (i « 0; i < cbook^size; i+ 4-) 

{ 

DecodeBookli] - p; 
p + = vsize: 

) 

) 

return DecodeBook: 
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) 

SnDeDoneCchar •DecodeBook) 
^ if { DecodeBook != nil ) 

DisposPtr(DecodeBook); 

) 

) 

void 

expand(short ••DecodeBook, short frame_size,. short vsize. 

short min pitch, struct frame "bs. short •output, short smpnum) 

{ " 
short count; 

short "bptr. 'sptrl, •sptr2; 
unsigned short pitch, bcode: 

/• 

short qlb_tabH = { 

1.2,3,4,5.6.7.8. 

9. 10, 11. 12. 13. 14, 15. 16 

): 

•/ 

bcode s= bs-> bcode; 

pitch = bs-> pitch + min_pitch - 1; 

/• Decode VQ vectors */ 
{ 

unsigned char *cptr; 
short k, vsi2e by_2; 

short rshift^count = 7 - bs->gcode; /* We want the output to be 14-bit 
number */ 

sptrl = output + smpnum; 
cptr = bs->vqcode; 

vsl2e_by_2 = (vsize > > 1) + 1; /,* + 1 since we do a while i-i) instead of 

while (H •/ 

if (rshift_count) 

for (k = 0; k < frame size; k + == vsize) 
{ 

'bptr = DecodeBook! •cptr + +1; 
count = vsi2e_by_2; 
while (-count) 

•sptrl + + = ((•bptr++) >> rshift^count); 
•sptrl -h+ = ((•bptr++) >> rshift_count); 

) 

) 

1 
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else 

^ for (k = 0; k < frame_size; k + = vsize) 

^ bptr = DecodeBooki*cptr+ +1; 
count = vsize_by_2; 
while (-count) 

{ 

*sptrl + + = •bptr++; 
•sptr1 + + = ■•bptr+ + ; 

} 

) 

} 

) 

/• Inverse Filtering */ 
if (smpnum < pitch) 

{ . ^ 

sptrl = output + pitch; 

count = smpnum + frame.size + 1 - pitch; /* + 1 since we do a while (-i) 

instead of while (i-) */ 

sptr2 = sptrl - pitch; 

switch (bcode) 

{ 

case 0: 

while (-count) 

•sptrl + + + = ((•sptr2+ +) > > 4); 

break; 
case 1: 

while (-count) 

•sptrl + + 4-= ((*sptr2++) > > 3): 
break; 
case 2: 

while (-count) 

•sptrl + + + = ((3 • (•sptr2-h +M > > 4); 

break; 
case 3: 

while (-count) 

•sptrl + + {(*sptr2++) >> 2); 
break; 
case 4: 

while (-count) 

♦sptrl + + + = ((5 • (•sptr2+ +)) > > 4); 

break; 
case 5: 

while (-count) 

♦ sptrl + + 4- = ((3 • (•sptr2+ +)) > > 3); 

break; 
case 6: 

while (-count) 




r 
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•sptrl + + + = {(7 • (•sptr2+ +)) > > 4); 
break: 
case 7: 

while (--count) 

*sptr1 + + += ({*sptr2-f +) >> 1); 
break; 
case 8: 

while (--count) 

{ 

long tmp; 

tmp = •sptr2 + + ; 

•sptrl + + + = (((tmp < < 3) + tmp) > > 4); 

} 

break; 
case 9: 

while (--count) 

*sptr1 + + -I- = ((5 * CsptrZ-f-h)) > > 31; 

break; 
Case 10: 

while (-count) 

{ 

long tmp; 

tmp = *sptr2+ +; 

•sptrl + + + = (((tmp < < 3) + 3 ♦ tmp) > > 4); 

} 

break: 
case 11: 

while (-count) 

•sptrl -h+ = ((3 ♦ (*sptr2++)) >> 2); 

break; 
case 12: 

while (-count) 

{ 

long tmp; 
tmp = •sptr2 + +; 
. 'sptrl + + + = (((tmp < < 4) - 3 • tmp) > > 4); 

} 

break; 
case 13: 

while (-count) 

♦sptrl -h+ += ((7 * (•sptr2++)) >> 3); 

break; 
case 14: 

while (-count) 

{ 

long tmp: 

tmp == *sptr2+ +: 

•sptrl + + + = (((tmp < < 4) - tmp) > > 4): 

) 

break; 



• * 
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case 15: 

while (-count) 

♦sptrH-+ += *sptr2++: 
break: 

} 

) else { 

sptrl = output + smpnum; 

sptr2 = sptrl - pitch; 

count = (frame^size /4) + 1; 

switch (bcode) 

{ 

case 0: 

while (—count) { 

•sptrl + + += ((•sptr2 + + ) >> 4); 
•sptrl + + + = ((•sptr2++) >> 4); 
•sptr1 + + += ({•sptr2 + + » >> 4); 
?sptr1 + + += ({•sptr2++) >> 4); 

} 

break: 
case 1: 

while (—count) { 

•sptrl + + ((•sptr2++) >> 3); 
•sptrl + + + = ((•sptr2+ +) >> 3): 
•sptrl + + ((•sptr2++) >> 3): 
•sptrl + + += ((•sptr2++) >> 3); 

} 

break; 
case 2: 

while (-count) { 

•sptrl + + += ((3 • (•sptr2++)) >> 4); 

•sptrl + + += ((3 • (•sptr2++)) >> 4); 

•sptrl + + + = ((3 • (•sptr2 + + )) >> 4); 

•sptrl + + + = ((3 • (•sptr2+ +)) > > 4); 

) 

break; 
case 3: 

while (-count) { 

•sptrl + + += ((•sptr2++) >> 2); 

•sptrl + + += ((•sptr2++) >> 2); 

•sptrl + + + = ((•sptr2+ +) > > 2); 

•sptrl + + + = ((•sptr2+ +) > > 2); 

) 

break; 
case 4: 

while (-count) { 

•sptrl + + + = {(5 • (•sptr2++)) > > 4); 

•sptrl + + = ((5 • (•sptr2++)) > > 4); 

•sptrl + + += (15 • (•sptr2++)) >> 4); 

•sptrl + + + = {(5 • {•sptr2+ +)) > > 4); 

} 



break; 
case 5: 

while (-count) { 

•sptrl + + + = ((3 • (•sptr2+ +)) > > 3); 

•sptr1 + + += ((3 * (•sptr2++)) >> 3); 

•sptrH-+ += ((3 * rsptr2++)) >> 3); 

•sptrl + + += ((3 • (*sptr2++)) >> 3); 

} 

break; 
case 6: 

while (-count) { 

•sptrl + + +=((?• {•sptr2+ +J) > > 4); 

•sptrl + + +=((?• (•sptr2++)) >> 4); 

•sptrl + + +=((?• (•sptr2 + +)) > > 4); 

•sptrl + + += ((7 ♦ (•sptr2++)) >> 4); 

} 

break: 
case 7: 

while (— count) { 

•sptrl + + += ((•sptr2++) >> 1); 
•sptrl + + += ((•sptr2++) >> 1); 
•sptrl + + += ((•sptr2++) >> 1); 
•sptr1 + + += ((•sptr2++) >> 1); 

1 

break; 
case 8: 

while (-count) { 
long tmp; 
tmp = •sptr2+ +; 

•sptrl + + + = ((8 * tmp + tmp) > > 4); 
tmp = *sptr2+ -h; 

*sptr1 + + = ({8 * tnnp + tmp) > > 4); 
tmp = •sptrZH- +; 

•sptrl + + + = ((8 • tmp + tmp) > > 4); 
tmp = *sptr2 + + ; 

•sptrl + -f- + = {(8 * tmp + tmp) > > 4); 

) 

break; 
case 9: 

while (-count) { 
, 'sptrl + + + = ((5 • (•sptr2+ +)) > > 3); 
•sptrl + + + = ((5 • <»sptr2+ +)) > > 3); 
•sptrl + + + = ((5 • (•sptr2+ +)) > > 3); 
•sptrH-+ += ((5 • (•sptr2 + +)) >> 3); 

} 

break>' 
case 10: 

while (-count) { 
long tmp; 

tmp = ♦sptr2 4- + ; 
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•sptrl + + + = «ttniP < < 3) + 3 ♦ tmp) > > 4); 
tmp = *sptr2++; 

•sptrl + + + = (((tmp << 3) + 3 • tmp) > > 4); 
tmp = •sptr2++; 

•sptrl + + + = (((tmp < < 3) + 3 • tmp) > > 4): 
tmp = •sptr2++; . ■ , 

•sptrl + + + = (((tmp < < 3) + 3 • tmp) > > 4); 

} 

break: 
case 11; 

while (--count) { «. 
•sptrl + + -^= ((3 • (•sptr2-l-+)) >> 2); 
•sptrl -H + + = ((3 • Csptri-l- +)) > > 2); 
•sptrl -t- + + = ((3 • (•sptr2-l- +)) > > 2); 
•sptrl 4- + += ((3 • (•sptr2-l-+)) >> 2): 

} 

break: 
case 12: 

while l-r-count) { 
long tmp; 

tmp = •sptr2-i-+: 

•sptrl -I- -I- + = (((tmp < < 4) - 3 • tmp) > > 4); 
tmp = •sptr2-»--f; 

•sptrl -H- + = (((tmp < < 4) - 3 • tmp) > > 4): 
tmp = *sptr2+-f: 

•sptrl + + + = (((tmp < < 4) - 3 • tmp) > > 4); 
tmp = •sptr2 -»--»-; 

•sptrl ■^ + = (((tmp < < 4) - 3 • tmp) > > 4): 

} 

break: 
case 13: 

while (-count) { 

•sptrl -H- -»-= ((7 • (•sptr2-»--h)) >> 3); 

•sptrl -H- H-= ((7 • (•sptr2 -»-+)) >> 3); 

•sptrl + + + = ((7 • (•sptr2+ +)) > > 3); 

•sptrl + -I- -H= ((7 * (•sptr2-f -I-)) >> 3); 

} 

break: 
case 14: 

while (-count) { 
long tmp; 

tmp = •sptr2-H-; 

•sptrl -H + -f = (((tmp < < 4) - tmp) > > 4); 
tmp = •sptr2-l- +; 

•sptrl -f -I- = (((tmp < < 4) - tmp) > > 4); 
tmp = *sptr2-h -»-: 

•sptrl + + += (((tmp < < 4) - tmp) > > 4); 
tmp = •sptr2-*- -»-: 

•sptrl -I- -I- + = (((tmp < < 4) - tmp) > > 4); 

} 



• • • 
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break; 
case 15: * 

while (-count) { 

•sptrH-+ •sptr2++: 
•sptrl + + + = *sptr2 + +: 
*sptf1 + + + •sptr2+ + ; 
•sptrl + + + = *sptr2++; 

} 

break; 



) 



) 
) 

short SnDecompress(DecodeBook, ratio, frame.size, min>tch, bstream, output) 

short • *DecocleBook, ratio; 

unsigned char •bstream; 

short •output, frame_si2e, min^pitch; 

^ short count, SampCount; 
register short dstate; 
short vcount; 

short vsize, cbook^size, bs^size; 

'\ 

get_compr_pars(ratio. frame.size, &vsize, &cbook_size. fitbs.size); 

dstate = • bstream ++; 
dstate = (dstate - 128) << 6; 

SampCount = 0; 

while(( •bstream & LAST_FRAME_FLAG) = = O) 

^ expand(DecodeBook, frame_size. vsize. min_pitch. 
(struct frame •)bstream, output. SampCount); 
bstream + = bs_si2e; 
SampCount + = frame_size: 

vcount = 'bstream - LAST_FRAME_FLAG; 
•bstream = Mbstream + 2 + vcount); 
expand(DecodeBook. frame_size, vsize. min_pitch. 

(struct frame •)bstream, output, SampCount); 
•bstream = vcount + LAST_FRAME_FLAG; 
SampCount + = vcount * vsize; 

count = (SampCount > > 1 ) + 1 : 

"'"'•ompuT^'i = dstate = ((.PCONS • dstate) » 3) . ^output; 
•output++ = dstate = ((IPCONS • dstate) >> 3) 'output: 

} 

output - = SampCount; 



return SampCount; 

1 

^define FILTER state + PFILT_ORDER + 1 
^define DC VAL state + PFILT.ORDER + PFILT_0RDER/2 + 2 
void SnSampExpandFiltlshort 'src. short off, short len. 
char •dest.short •state) 

{ 

short input, temp: 

lor>g ace; * 

register short dc = •(DC_VAU; 
register short 'sptrl. 'sptrZ; 

src + = off; 
len++; 
sptrl = state: 

sptr2 = state + PFILT_ORDER; 
while (-len) { 

input = •src++ - dc; 

dc + = input > > 5; 

temp = input + •sptrH-+: /• (statelO) + state[8]) • filterlOl */ 
acc = temp • •(FILTER); 

temp = •--sptr2 + 'sptrl + + : /• (statelU + state(71) • filterdl •/ 
acc + «= temp • • (FILTER +1); 

temp = •-sptr2 + •sptrl + + : /' (stateI21 + statelBl) • filterl21 •/ 
acc + = temp • 

•(FILTER + 2); 

temp = •--sptr2 + 'sptrl + +: /* (stateOl + statelBl) * filterI31 •/ 
acc + = temp • •(FILTER + 3); 

acc + = 'sptrl • '(FILTER + 4): /* stateI4] • filterl41 •/ 
if (acc > 0) 

^ temp = <acc + (257 < < 20)) > > 21: 
if (temp > 255) 
temp = 255; 

) 

else 

^ temp = (acG + (255 < < 20)) > > 21; 
if (temp < 0) 
temp := 0; 

} 

•dest+ -f = temp; 



sptrl -= 4; 
sptr2 -= 4: 

•sptrl + + = •sptr2+ +; 
*sptfl + + = •sptr2+ +; 
•sptrl + + = •sptr2+ +; 
•sptrl + + = •sptr2+ +; 
•sptrl + + = •sptr2+ +; 
•sptrl + + = 'sptr2+ +; 
•sptrl + + = •sptr2 + +; 
•sptrl = input; /* 
sptrl -= 7; 



/• statelOJ = statelll •/ 

/• statelD = stateI21 •/ 

/• stateI21 state 131 •/ 
/• stateI31 = state(41 

/• state[4J = statelSJ •/ 

/• state[51 = stateiei •/ 
/• stateiei = stateI71 •/ 
stateI71 = input •/ 



(DC_VAL) = dc; 



III. BLENDING MODULE 



/♦ A module for blending two diphones */ 

typedef struct { 

short Iptr, pitch; 

short weight, welghtjnc; 
) bstate; 

void SnBlend(pitchp Ip, pitchp rp, short cur^tot, short tot, 
short type, bstate *bs) 

{ 

#pragma unused (tot) 

short count; 
short 'ptrl, *ptr2; 

if (type = = VOICED) 
{ 

if (cur^tot) 
return; 

{ 

short weight; 
long min_amdf; 
short besFjag = O, lag; 
short window^size; 
short weight jnc: 

/• First replicate the left pitch period */ 

ptrl = lp->bufp; 

ptr2 = ptrl + lp->olen; 

count = lp->olen +1; 

while (-count) 

•ptr2+ + = •ptrl + +; 

/• Smooth the discontinuity */ 
{ 

register short en, e2; 

en = lp->bufp[21 + 

3 • (lp->bufp[0] - lp->bufpI11) -lp->bufpIlp->olen 

e2 = lp->bufpI01 - lp->bufpIlp->olen • 11; 



if (en * en > e2 * e2) 

en = e2: 



ptr2 = lp->bufp + lp->olen: 
count- = {lp->olen >> 1) + 1; 
while (--count) 
{ 

•"ptr2 + = en; 

en = |((en < < 4).- en) > > 4); 

) 



min^amdf = LARGE^NUM; 

window^size = rp->olen; 
if (lp->olen < rp->olen) 

window_size = lp->olen; 

lag = rp->olen; 
while (—lag) 

{ 

long amdf = 0; 

ptrl = rp->bufp; 

ptr2 = lp->bufp + lag: 

count = {(window_si2e + 3) >> 2) -f 1; 

while (-count) 

{ 

short tnnp; 

tmp = (*ptr1 - *ptr2); 
if (tmp > 0) 

amdf + = tmp: 

else 

amdf -= tmp: 
ptrl + = 4; 
ptr2 + = 4: 

) 

if (amdf < min_amdf) 

{ 

bestjag = lag: 
min_amdf = amdf; 

) 

) 

bs-> pitch = lp->olen: 
/• Update left buffer */ 
if (bestjag < (lp->olen > > D) 

{ 

/* Add bestjag samples to the length of left pulse*/ 
lp->olen + s bestjag; 

} 

else 
{ 

/• Delete a few samples from the left pulse */ 
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lp->olen = bestjag; 

) • 

bs->lptr = bestjag; 

weightjnc = 32767/ window^size; 

weight = 32767 - weightjnc: 

ptrl = rp->bufp; 
ptr2 = lp->bufp + bs->lptr; 
count = window_si2e+ 1: 
while (-count) 

{ 

•ptrl + + + = (((short) (•ptr2++ - *ptr1) * weight) >> 15); 
weight - = weight inc; 

} 

) 

) 

else 

{ 

register short delta; 

/* Just blend 15 samples */ 

ptr2 = lp->bufp + lp->olen - 15; 

ptrl = rp->bufp; 

r 

for (i = 1; i < 16; i+ +) 
{ 

*ptr1 = •ptr2 + (i • Cptrl - •ptr2)) > > 4; 

ptr1+-*-; 

ptr2 + -f; 

} 

V 

delta = 'ptrl - •ptr2; 

•ptr1 + + = *ptr2++ + (delta >> 4); 

delta = •ptrl - *ptr2; 

*ptr1 + + = *ptr2++ + ((delta) >> 3); 

delta = *ptr1 - •ptr2; 

*ptr1 + + = •ptr2++ + ((3 * delta) >> 4); 

delta = *ptr1 - •ptr2; 

•ptr1 + + = •ptr2++ + (delta >> 2); 

delta = •ptrl - •ptr2; 

•ptrl + + = *ptr2 + + + ((5 • delta) > > 4); 
delta = ♦ptrl - •ptr2; 

•ptrl + -h = •ptr2+ + + {(3 • delta) > > 8); 
delta = •ptrl - •ptr2; 



- 67 - 

.p„l + + = •p(.2+ + + H7 • delta) > > 4): 

* C(ide..a « 3, * dalu, » 4); 
I^X, : V^';'; . ,„de,.a « 3. * 3 • de..a, > > 4,: 
^ pi' : ?r-pt?2"'; . «.del.= « 4. - 3 • delta, > > 4,: 

^^;s",-;''r.pt72?w.<7-de.ta,»3,: 

^t;^',-="CV?;SdL.,a«4,-de..ar»4,: 



|p->olen - =15: 

) 

) 



IV. INTONATION ADJUSTMENT MODULE 



/• A module for deleting a pitch period */ 
/• 

Pointer srcl points to Left Pitch period 
Pointer src2 points to Right Pitch period 
Pointer dst points to Resulting Pitch period 
len = length of the pitch periods 

•/ 

skip pulsesishort *src1, short *src2/short *dst, short len) 

{ " 

short i; 

register short weight, cweight: 
i = len+l; 

weight = cweight = 32767/i; 
while (--i) . 
{ 

•dst++ = •srcl + + + (((short) (*src2++ - •srcl) • cweight) >> 15); 
cweight + = weight; 

) 



/* A module for Inserting a pitch period ♦/ 

Locn bufferlcurbeg] points to Left Pitch period 
"Locn bufferlcurbeg + curlen] points to Right Pitch period 
Pointer dst points to Resulting Pitch period 
curlen length of the pitch periods 

insert pulse{short •buffer, short *dst, short curlen, short curbeg] 

{ " 

short weight, cweight, count; 
short •srcl, *src2; 

srcl = buffer + curbeg; 

src2 = buffer + curbeg + curlen; 

weight = 32767 / curlen; 

cweight = weight; 

count = curlen +1; 

while (-count) 

{ 

•dst++ = •src1 + + = *src2++ + (((short) (•srcl - •src2) * cweight) >> 

15); 

cweight + = weight; 

) 

} 

/* This module is used to change pitch information in the concatenated speech */ 



// This routine depends on the desired length (deslen) being at least half 
// and no more than twice the actual length (len). 



void SnChangePitch(short *buf. short *next, short len, short deslen,short Ivocshort 
rvoc.short dosmooth) 

{ 

^pragma unused(rvoc, dosmooth) 
short delta; 
short count; 
short *bptr, •aptr; 
short weight, weightjnc; 
if (llyoc 1 1 (deslen = = len)) return; 

if (deslen > len) 

{ 

/• Increase Pitch period */ 
delta == deslen - len; 
bptr = buf + len; 
aptr = buf + deslen; 
count = delta + 1; 
while (—count) 

•-aptr = '"bptr; 

count = len - delta + 1 ; 

weight = weightjnc = 32767 / count; 

while (-count) 

{ 

register short tmp2; 

tmp2 = C-aptr - '-bptr); 

•aptr = *bptr + ((tmp2 » weight) >> 15); 

weight -»■ = weightjnc; 

) 

return; 

) 
{ 

/• Shorten Pitch Period */ 
short wsize; 

delta = len - deslen; 
wsize = 2 * delta; 

if (wsize > deslen) 
wsize = deslen; 

weightjnc = 32767 / (wsize + 1); 
weight = weightjnc; 
aptr = buf + deslen; 
bptr = buf + len - wsize; 
count = wsize - delta + 1 : 



• • • • 



* • • • 
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while (-count) 
{ • 

•bptr+ + + = {((short) (•aptr+ + - 'bptr) • weight ) > > 15); 
weight + «= weightjnc; 

) 

aptr = buf 4- deslen; 
bptr = next; 
count « delta + 1; 
weight « 32767 - weight; 
while (-count) 

{ 

•bptr+ + + = (((short) (•aptr+ + - •bptr) ^ weight ) > > 15); 
weight -= weightjnc; 

) 



694 20 547.8 

Apple Computer, Inc. 



F15004EP/DE 
03.12 -SS/sh/tk 



Patentanspruche 

1. Vorrichtung zur Verkettung eineis ersten digitalen Rah- 
mens von N Proben mit jeweiligen Betragen, welche sine er- 
ste quasiperiodische Wellenfoirm darstellen, und eines zwei- 
ten digitalen Rahmens von M Proben mit jeweiligen Betragen, 
bzw. Amplituden welche eine zweite quasiperiodische Wellen- 
form darstellen, mit: 

- einem Puffer (15) zum Speichem der Proben des ersten 
und zweiten digitalen Rahmens; 

- Mitteln, welche mit dem Puf f erspeicher gekoppelt sind, 
zur Bestimmung eines Mischungspunktes fur den ersten und 
den zweiten digitalen Rahmen, ansprechend auf die Betra- 
ge der Proben in dem ersten und dem zweiten digitalen 
Rahmen ; 

- Vermischungsmitteln, welche mit dem Puf f erspeicher und 
den Mitteln zur Bestimmung gekoppelt sind, zur Berech- 
nung einer digitalen Sequenz, welche eine Verkettung der 
ersten und der zweiten quasiperiodischen Wellenform an- 
sprechend auf den ersten Rahmen, den zweiten Rahmen und 
den Vermischungspunkt darstellt. 

2. Vorrichtung nach Anspruch 1, ferner mit: 

- Wandlermitteln, welche mit den Vermischungsmitteln ge- 
koppelt sind, zum Wandeln der digitalen Sequenz in eine 
analoge verkettete Wellenform. 

3, Vorrichtung nach einem der Anspruche 1 oder 2, bei wel- 
cher die Mittel zur Bestimmung aufweisen: 



- erste Mittel zur Berechnung eines erweiterten Rahmens 
ansprechend auf den erst en digital en Rahmen; 

- zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens, welche bezuglich des zweiten digitalen Rah- 
mens relativ gut angepafit ist, und zur Definierung des Ver- 
mis chungspunktes als einer Probe in der Teilmenge. 

4. Vorrichtung nach Anspruch 3, bei welcher der erweiterte 
Rahmen eine Verkettung des ersten digitalen Rahmens mit ei- 
ner Kopie des ersten digitalen Rahmens aufweist. 

5. vorrichtung nach einem der Anspruche 3 oder 4, bei wel- 
cher die Teilmenge des erweiterten Rahmens, welche bezGg- 
lich des zweiten digitalen Rahmens relativ gut angepafit 
ist, ein Teilmenge mit einer minimalen mittleren bzw. 
durchschnittlichen,Betragsdifferenz uber die Proben in der 
Teilmenge ist, und der Vermis chungspunkt eine erste Probe 
in der Teilmenge ist. 

6. Vorrichtung nach einem der vorstehenden Anspruche, bei 
welcher die Mittel zur Bestimmung aufweisen: 

- erste Mittel zur Berechnung eines eirweiterten Rahmens 
mit einer diskontinuitatsgeglatteten Verkettung des er- 
sten digitalen Rahmens mit einer Kopie des ersten digi- 
talen Rahmens; 

- zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens mit einer minimalen durchschnitt lichen 
Betragsdifferenz zwischen den Proben in der Teilmenge 
und dem zweiten digitalen Rahmen, und zur Definierung 
eines Vermischungspunktes als einer ersten Probe in der 
Teilmenge. 



7. Vorrichtung nach einem der vorstehenden Anspruche, bei 
welcher die Vermischungsmittel aufweisen: 

- Mittel zur Zur-Verf ugung-Stellung einer ersten Menge von 
Proben abgeleitet von dem ersten digitalen Rahmen und 
dem Vermis chungspunkt als ein erstes Segment der digita- 
len Sequenz; und 

- Mittel zur Kombination des zweiten digitalen Rahmens mit 
einer zweiten Menge von Proben, welche von dem ersten 
digitalen Rahmen und dem Vermischungspunkt abgeleitet 
sind, unter Betonung der zweiten Menge in einer Start- 
probe iind Betonung des zweiten digitalen Rahmens in ei- 
ner Endprobe zur Herstellung eines zweiten Segmentes der 
digitalen Sequenz. 

8. Vorrichtung nach Anspruch 6, bei welcher die Vermi- 
schungsmittel aufweisen: 

- Mittel zur Zur-Verfugung-Stellung einer ersten Menge von 
Proben, welche von dem ersten digitalen Rahmen und dem 
Vermischungspunkt abgeleitet sind als ein erstes Segment 
der digitalen Sequenz; und 

- Mittel zur Kombination des zweiten digitalen Rahmens mit 
der Teilmenge des erweiterten Rahmens, unter Betonung 
der Teilmenge des erweiterten Rahmens in einer Anfangs- 
probe und Betonung des zweiten digitalen Rahmens in ei- 
ner Endprobe zur Herstellung eines zweiten Segmentes der 
digitalen Sequenz. 

9. Vorrichtung nach Anspruch 8, bei welcher der erste und 
der zweite digitale Rahmen Enden bzw, Anfange von benach- 
barten Diphonen bei der Sprache darstellen, und ferner auf- 
weisen: 



- Wandlerraittel, welche mit den Vermischungsmitteln gekop- 
pelt sind, ztim Wandeln der digitalen Sequenz in einen 
Laut bei der Sprachsynthese . 
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Vorrichtung zur Verkettung eines ersten digitalen Rah- 
mens von N Proben mit jeweiligen Betragen, welche ein er- 
stes Lautsegment darstellen, und eines zweiten digitalen 
Rahmens von M Proben mit jeweiligen Betragen, welche ein 
zweites Lautsegment darstellen, mit: 

- einem Puf ferspeicher zum Speichern der Proben des ersten 
und des zweiten digitalen Rahmens; 

- Mitteln, welche mit dem Puf ferspeicher gekoppelt. sind, 
zur Bestimmung eines Vermis chungspunktes fur den ersten 
und den zweiten digitalen Rahmen ansprechend auf die Be- 
trage der Proben in dem ersten und dem zweiten digitalen 
Rahmen; 

- Vermischungsmitteln, welche mit dem Puf ferspeicher und 
den Mitteln zur Bestimmung gekoppelt sind, zur Berech- 
nung einer digitalen Sequenz, welche eine Verkettung der 
ersten und der zweiten Lautsegmente ansprechend auf den 
ersten Rahmen, den zweiten Rahmen und den Vermischungs- 
punkt darstellt; und 

- Wandlermitteln, welche mit den Vermischungsmitteln ge- 
koppelt sind, zum Wandeln der digitalen Sequenz in Lau- 



te. 



11. Vorrichtung nach Anspruch 10, bei welcher die Mittel 
zur Bestimmung aufweisen: 

- erste Mittel zur Berechnung eines erweiterten Rahmens 
ansprechend auf den ersten digitalen Rahmen; 

- zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens, welche bezuglich des zweiten digitalen 
Rahmens relativ gut angepaSt ist, und zur Definierung 



des Vermischungspunktes als einer Probe in der Teilmen- 
ge. 

12. Vorrichtung nach Anspiruch 11, bei welcher der erweiter- 
te Rahmen eine Verkettimg des ersten digitalen Rahmens mit 
einer Kopie des ersten digitalen Rahmens aufweist. 

13. Vorrichtung nach einem der Anspruche 11 oder 12, bei 
welcher die Teilmenge des earweiterten Rahmens, welche be- 
zuglich des zweiten digitalen Rahmens relativ gut angepaSt 
ist, eine Teilmenge mit einer minimalen durchschnittlichen 
Betragsdif ferenz uber die Proben in der Teilmenge ist, xind 
der Vermis chungspunJct eine erste Probe in der Teilmenge 
ist. 

14. Vorrichtung nach einem der Anspruche 10 bis 13, wobei 
die Mittel zur Bestimmung aufweisen: 

erste Mittel zur Berechnung eines erweiterten Rahmens 
mit einer diskontinuitatsgeglatteten Verkettung des er- 
sten digitalen Rahmens mit einer Kopie des ersten digi^ 
talen Rahmens; 

zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens mit einer minimalen durchschnittlichen 
Betragsdif ferenz zwischen den Proben in der Teilmenge 
und dem zweiten digitalen Rahmen und zur Definierung des 
Vermischungspxinktes als einer ersten Probe in der Teil- 
menge . 

15. Vorrichtung nach einem der Anspruche 10 bis 14, wobei 
die Vermischungsmittel aufweisen: 

Mittel zur Zur-Verfugung-Stellung einer ersten Menge von 
Proben, welche von dem ersten digitalen Rahmen und dem 



Vermischungspunkt abgeleitet sind, als ein erstes Seg- 
ment der digitalen Sequenz; und 
- Mittel zur Kombination des zweiten digitalen Rahmens mit 
einer zweiten Menge von Proben, die von dem ersten digi- 
talen Rahmen und dem Vermis chungspunkt abgeleitet sind, 
mit Betonung der zweiten Menge in einer Startprobe und 
Betonung des zweiten digitalen Rahmens in einer Endprobe 
zur Herstellurig eines zweiten Segments der digitalen Se- 
quenz. 

16. Vorrichtung nach Anspruch 14, bei welcher die Vermi- 
schungsmittel aufweisen: 

- Mittel zur Zur-Verfugung-Stellung einer ersten Menge von 
Proben, die von dem ersten digitalen Rahmen und dem Ver- 
mischungspunkt abgeleitet sind, als ein erstes Segment 
der digitalen Sequenz; und 

- Mittel zur Kombination des zweiten digitalen Rahmens mit 
der Teilmenge des erweiterten Rahmens, mit Betonung der 
Teilmenge des erweiterten Rahmens in einer Startprobe 
und Betonung des zweiten digitalen Rahmens in einer End- 
probe zur Herstellung eines zweiten Segmentes der digi- 
talen Sequenz. 

17. vorrichtung nach Anspruch 16, bei welcher der erste und 
der zweite digitale Rahmen Enden bzw. Anfange benachbaifter 
Diphone in der Sprache darstellen, und die Wandlermittel 
synthetisierte Sprache erzeugen, 

18. Vorrichtung zur Synthetisierung von Sprache ansprechend 
auf einen Text, mit 

- Mitteln (21) zur Ubersetzung von Text in eine Sequenz 
von Lautsegmentcodierungen; 

- Mitteln (23), welche ansprechend sind auf die Lautseg- 
mentcodierungen in der Sequenz, zur Decodierung der Se- 



quenz der Laut segment codierungen zur Herstellung von 
Strings von digitalen Rahmen einer Anzahl von Proben, 
welche Laute fur jeweilige Lauts^egmentcodierungen in der 
Sequenz darstellen, wobei die identif izierten Strings 
der digitalen Rahmen Anfange und Endungen bwz. Enden 
aufweisen; 

Mitteln (24) zur Verkettung eines ersten digitalen Rah- 
mens an der Endung eines identif izierten Strings von di- 
gitalen Rahmen einer bestimmten Lautsegmentcodierung in 
den Sequenzen mit einem zweiten digitalen Rahmen am An- 
fang eines identif izierten Strings von digitalen Rahmen 
einer benachbarten Lautsequenzcodiemang in der Sec[uenz 
zur Erzeugung einer Sprachdatensequenz , mit 

einem Puf f erspeicher zum Speichern der Proben von er- 
sten \and zweiten digitalen Rahmen; 

Mitteln, welche mit dem Puf f erspeicher gekoppelt 
sind, zur Bestimmung eines Vermischungspunktes fur 
den ersten und den zweiten digitalen Rahmen, anspre- 
chend auf die Betrage der Proben in dem ersten iind 
dem zweiten digitalen Rahmen; 

Vermischungsmitteln, welche mit dem Puf f erspeicher 
und den Mitteln zur Bestimmung gekoppelt sind, zur 
Berechnung einer digitalen Sequenz, welche eine Ver- 
kettung der ersten und zweiten Laut segment e anspre- 
chend auf den ersten Rahmen, den zweiten Rahmen und 
den Veirmischungspunkt darstellt; xrnd 

einem Audiowandler (27) , der mit den Mitteln zur Ver- 
kettung gekoppelt ist, zur Generierung synthetisier- 
ter Sprache ansprechend auf die Sprachdatensequenz . 

9. Vorrichtung nach Anspruch 18, ferner mit: 

Mitteln, welche ansprechend auf die Laut segment codierun- 
gen sind, zur Einstellung der Tonhohe und der Dauer der 



identifizierten Strings der digitalen Rahmen in der 
Sprachdatensequenz. 

20. Vorrichtung nach einem der Anspruche 18 oder 19, bei 
welcher die Mittel zur Bestimmung aufweisen: 

- erste Mittel zur Berechnung eines erweiterten Rahmens 
ansprechend auf den ersten digitalen Rahmen; 

- zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens, welcher bezuglich des zweiten digitalen 
Rahmens relativ gut angepaSt ist und zur Definierung des 
Vermischungspunktes als einer Probe in der Teilmenge. 

21. Vorrichtung nach Anspruch 20, bei welcher der erweiter- 
te Rahmen eine Verkettung des ersten Rahmens mit einer Ko- 
pie des ersten digitalen Rahmens aufweist . 

22. Vorrichtung nach einem der Anspruche 20 oder 21, bei 
welcher die Teilmenge des erweiterten Rahmens, welche be- 
zuglich des ersten digitalen Rahmens relativ gut angepaSt 
ist, eine Teilmenge mit einer minimalen durchschnittlichen 
Betragsdifferenz uber die Proben in der Teilmenge aufweist, 
und wobei der Vermischungspunkt eine erste Probe in der 
Teilmenge aufweist - 

23 . Vorrichtung nach einem der Anspruche 18 bis 22, bei 
welcher die Mittel zur Bestimmung aufweisen: 

- erste Mittel zur Berechnung eines erweiterten Rahmens 
mit einer diskontinuitatsgeglatteten Verkettung des er- 
sten digitalen Rahmens mit einer Kopie des ersten digi- 
talen Rahmens; 

- zweite Mittel zum Auffinden einer Teilmenge des erwei- 
terten Rahmens mit einer minimalen durchschnittlichen 
Betragsdifferenz zwischen den Proben in der Teilmenge 



und dem zweiten digitalen Rahmen, and zur Definierung 
des Vermischungspunktes als einer ersten Probe in der 
Teilmenge. 

24. Vorrichtung nach einem der Anspruche 18 bis 23, bei 
welcher die Vermischungsmittel aufweisen: 

- Mittel zur Zur-Verf ugung-Stellung einer ersten Menge von 
Proben, welche von dem ersten digitalen Rahmen und dem 
Vermischungspunkt abgeleitet sind, als ein erstes Seg- 
ment der digitalen Sequenz; und 

Mittel zur Kombination des zweiten digitalen Rahmens mit 
einem zweiten Satz von Proben, welche von dem ersten di- 
gitalen Rahmen und dem Vermischungspunkt abgeleitet 
sind, mit Betonung der zweiten Menge in einer Anfangs- 
probe und Betonung des zweiten digitalen Rahmens in ei- 
ner Endprobe zur Herstellung eines zweiten Segmentes der 
digitalen Sequenz. 

25 . Vorrichtung nach Anspruch 23 , bei welcher die Vermi- 
schungsmittel aufweisen: 

Mittel zur Zur-Verf ugung-Stellung eines ersten Satzes 
von Proben, welche abgeleitet sind von dem ersten digi- 
talen Rahmen und dem Vermischungspunkt, als ein erstes 
Segment der digitalen Sequenz; und 

Mittel zur Kombination des zweiten digitalen Rahmens mit 
der Teilmenge des erweiterten Rahmens, mit Betonung der 
Teilmenge des erweiterten Rahmens in einer Anfangsprobe 
und Betonung des zweiten digitalen Rahmens in einer End- 
probe zur Herstellung eines zweiten Segmentes der digi- 
talen Sequenz . 

26. Vorrichtung nach einem der Anspruche 18 bis 25, bei 
welcher die Lautsegmentcodierungen Sprach-Diphone darstel- 
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len, und der erste und der zweite digitale Rahmen Endungen 
bzw. Anfange benachbarter Diphone in de.r Sprache darstel- 
len- 
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